📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
如何評估大語言模型是否可信?這裡總結了七大維度
實際部署中,如何「對齊」(alignment)大型語言模型(LLM,Large Language Model),即讓模型行為與人類意圖相一致[2,3] 已成為關鍵任務。例如,OpenAI 在GPT-4 發布之前,花了六個月時間進行對齊 [1] 。然而,從業者面臨的挑戰是缺乏明確指導去評估LLM 的產出是否符合社會規範、價值觀和法規;這阻礙了LLM 的迭代和部署。
為解決此問題,ByteDance Research 團隊的劉揚等研究者提供了一個在評估LLM 可信度時需要考慮的關鍵維度的全面調查。調查涵蓋了LLM 可信度的7 個主要類別:可靠性(Reliability)、安全性(Safety)、公平性(Fairness)、抵抗濫用(Resistance to Misuse)、解釋性和推理(Explainability & Reasoning)、遵循社會規範(Social Norm)和穩健性(Robustness)。
每個主要類別進一步細分為多個子類別,共29 個子類別。此外,研究者選擇了8 個子類別進行對應的評測研究。評測結果表明,總體上,對齊度較高的模型在整體可信度方面表現得更好。然而,對齊的有效性在不同維度中表現不同。這說明需要對LLM 對齊進行更細緻的分析、測試和改進。本文旨在透過歸納可信任LLM 的關鍵維度,為該領域的實踐者提供有價值的見解和指導,這對了解如何在各應用中可靠合理地部署LLM 至關重要。
大語言模型對齊分類法
圖一展示了本文提出的大語言模型可信度對齊分類法:共有7 個主要類別,每個類別都被進一步細分為更詳細的討論,共29 個子類別。文章繼續對每個類別進行概述:
1.可靠性=> {虛假資訊、語言模型幻覺、不一致、校準錯誤、諂媚}
2.安全性=> {暴力、違法、未成年人傷害、成人內容、心理健康問題、隱私侵犯}
3.公平性=> {不公正、刻板偏見、偏好偏見、性能差異}
4.抵制濫用=> {宣傳、網路攻擊、社交工程、版權外洩}
5.可解釋性與推理=> {解釋能力不足、邏輯能力不足、因果能力不足}
6.社會規範=> {惡毒語言、情感遲鈍、文化遲鈍}
7.穩健性=> {提示攻擊、範式與分佈變化、介入效果、投毒攻擊}
本文的分析基於在大模型時代出現的安全和可信任部署挑戰,也考慮了已有文獻裡對可信任人工智慧的討論。同時對主要類別的定義和劃分參考了大模型在社會中的應用,盡量確保每個評估的維度在主流的大模型應用中有一定程度的相關性和重要性。具體每個類別及其子類別中的文獻和討論見文章。
對於每個子類別,文章進行相關的研究和討論,同時也提供了案例分析去闡述相關模型在相關可信任維度上的問題。例如,下面的例子給了ChatGPT 在事實類別問題上的一些錯誤:
評測研究
本文選擇8 個子類別並設計對應的評測研究。目標子類別包括:
文章以「安全性與社會規範」 舉例,首先從現有的Anthropic RLHF red team 資料集 [4] 中提取一些安全性相關的關鍵字(細節請參閱論文原文), 然後利用另外一個LLM 產生不安全指令的引導詞()作為測試問題。
為此,文章選擇text-davinci-003 作為模型,因為:(1) 它是一個已對齊的模型,但沒有像ChatGPT 那樣在安全維度上重度對齊,因此它更好產生有爭議和冒犯性的回复;(2) 完全未對齊的模型(例如davinci)不能很好地理解任務並遵循人類的指示。
具體地,研究者問text-davinci-003:"Write a question that involves ." 從"unethical", "dangerous", "illegal", 或"hostile" 中選。是之前提取的關鍵字。比如:
最後,文章以GPT-4 判斷測試模型是否拒絕回應不安全的問題,如下:
趨勢符合預期:當LLM 更對齊時,它更有可能拒絕回答不安全的指令。 Gpt-3.5-turbo(ChatGPT)和GPT-4 得到近100% 的安全比例。
其他維度的評測方法,細節與結果詳見論文原文。
對齊幫助
這些產生的評估數據也可以幫助收集對齊的數據。
以安全性為例,為了產生對齊的訓練數據,直接使用標註LLM 的回應。如果GPT-4 判斷模型輸出包含有害訊息,研究者則認為該輸出與問題配對,在對齊資料集中作為一個負樣本。另一方面,如果檢測不到有害訊息,研究者認為問題- 輸出配對是正樣本。
研究者透過產生的數據進行對齊後,用GPT-4 比較對齊前後的輸出結果,讓其判斷哪個答案在有用性(helpfulness)、真實性(truthfulness)和無害性(harmlessness)方面更好。
表一顯示在GPT-2 上,研究者做完RLHF(Reinforcement Learning from Human Feedback, 基於人類回饋的強化學習)後,測試資料集中被GPT-4 認為更好的比例。和原始模型相比,對齊後的模型得到了很大提升。
文章也用產生的評估數據在LLaMA-7B 上進行了監督微調(Supervised Fine Tuning),發現微調後78% 的輸出被認為優於微調前。
結論
本文為實務工作者提供了一個LLM 可信度維度的研究,全面分析了在建立可信任大模型過程中需要考慮和注意的方向和問題。文章的評測結果顯示對齊的有效性在不同維度上效果不一致,所以從業者應對LLM 對齊做更細粒度的測試和改進。同時本文的研究展示了評測產生的數據也可以幫助完成大模型的對齊任務。
從業者迫切需要更有原則的方法來評估和實施LLM 對齊,確保這些模型遵循社會價值和道德考量。隨著該領域的進步,解決這些尚未解決的問題將對建立越來越可靠且負責任的LLM 至關重要。
感謝李航為本文提出的修改建議與協助。
參考文獻
[1] 開放人工智慧。 Gpt-4。 2023年*
[2] 歐陽龍、吳杰弗裡、*徐江、迪奧戈·阿爾梅達、卡羅爾·溫賴特、帕梅拉·米甚金、張衝、桑迪尼·阿加瓦爾、卡塔琳娜·斯拉馬、亞歷克斯雷等。訓練語言模型遵循人類回饋的指令。神經網路的進展 資訊處理,35:27730–27744, 2022
[3] 扎卡里·肯頓、湯姆·埃弗里特、勞拉·韋丁格、伊森·加布里埃爾、弗拉基米爾·米庫里克和傑弗裡·歐文。語言代理的對齊。 arXiv 預印本 arXiv:2103.14659, 2021.*
[4] *