如何評估大語言模型是否可信？這裡總結了七大維度

Question

> 本文提出7 個主要關鍵維度來全面評估LLM 可信度。實際部署中，如何「對齊」（alignment）大型語言模型（LLM，Large Language Model），即讓模型行為與人類意圖相一致[2,3] 已成為關鍵任務。例如，OpenAI 在GPT-4 發布之前，花了六個月時間進行對齊 [1] 。然而，從業者面臨的挑戰是缺乏明確指導去評估LLM 的產出是否符合社會規範、價值觀和法規；這阻礙了LLM 的迭代和部署。為解決此問題，ByteDance Research 團隊的劉揚等研究者提供了一個在評估LLM 可信度時需要考慮的關鍵維度的全面調查。調查涵蓋了LLM 可信度的7 個主要類別：可靠性（Reliability)、安全性（Safety）、公平性（Fairness）、抵抗濫用（Resistance to Misuse）、解釋性和推理（Explainability & Reasoning）、遵循社會規範（Social Norm）和穩健性（Robustness）。每個主要類別進一步細分為多個子類別，共29 個子類別。此外，研究者選擇了8 個子類別進行對應的評測研究。評測結果表明，總體上，對齊度較高的模型在整體可信度方面表現得更好。然而，對齊的有效性在不同維度中表現不同。這說明需要對LLM 對齊進行更細緻的分析、測試和改進。本文旨在透過歸納可信任LLM 的關鍵維度，為該領域的實踐者提供有價值的見解和指導，這對了解如何在各應用中可靠合理地部署LLM 至關重要。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) 論文地址：## **大語言模型對齊分類法**圖一展示了本文提出的大語言模型可信度對齊分類法：共有7 個主要類別，每個類別都被進一步細分為更詳細的討論，共29 個子類別。文章繼續對每個類別進行概述：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *圖一：文本提出的大語言模型可信度對齊分類法。 *1.可靠性=> {虛假資訊、語言模型幻覺、不一致、校準錯誤、諂媚}* a.產生正確、真實且一致的輸出，並具有適當的不確定性。2.安全性=> {暴力、違法、未成年人傷害、成人內容、心理健康問題、隱私侵犯}* a.避免產生不安全和非法的輸出，並避免洩漏私人資訊。3.公平性=> {不公正、刻板偏見、偏好偏見、性能差異}* a.避免偏見並確保不同人群上表現差異不大。4.抵制濫用=> {宣傳、網路攻擊、社交工程、版權外洩}* a.禁止惡意攻擊者濫用。5.可解釋性與推理=> {解釋能力不足、邏輯能力不足、因果能力不足}* a.向使用者解釋輸出並正確推理的能力。6.社會規範=> {惡毒語言、情感遲鈍、文化遲鈍}* a.反映普遍共享的人類價值。7.穩健性=> {提示攻擊、範式與分佈變化、介入效果、投毒攻擊}* a.對抗性攻擊和分佈變化的抗性。本文的分析基於在大模型時代出現的安全和可信任部署挑戰，也考慮了已有文獻裡對可信任人工智慧的討論。同時對主要類別的定義和劃分參考了大模型在社會中的應用，盡量確保每個評估的維度在主流的大模型應用中有一定程度的相關性和重要性。具體每個類別及其子類別中的文獻和討論見文章。對於每個子類別，文章進行相關的研究和討論，同時也提供了案例分析去闡述相關模型在相關可信任維度上的問題。例如，下面的例子給了ChatGPT 在事實類別問題上的一些錯誤：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) 利用下面這個例子，本文討論了大模型輸出中可能存在的非法資訊：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **評測研究**本文選擇8 個子類別並設計對應的評測研究。目標子類別包括：* 可靠性：語言模型幻覺* 安全性與社會規範：安全相關議題（例如暴力、歧視、仇恨言論等）* 公平性：(性別) 刻板印象* 可靠性：校準錯誤* 抵制濫用：宣傳和網路攻擊的濫用* 抵制濫用：洩漏版權* 可解釋性：因果推理* 穩健性：對拼字錯誤攻擊的穩健性文章以「安全性與社會規範」 舉例，首先從現有的Anthropic RLHF red team 資料集 [4] 中提取一些安全性相關的關鍵字（細節請參閱論文原文）， 然後利用另外一個LLM 產生不安全指令的引導詞（）作為測試問題。為此，文章選擇text-davinci-003 作為模型，因為：(1) 它是一個已對齊的模型，但沒有像ChatGPT 那樣在安全維度上重度對齊，因此它更好產生有爭議和冒犯性的回复；(2) 完全未對齊的模型（例如davinci）不能很好地理解任務並遵循人類的指示。具體地，研究者問text-davinci-003："Write a question that involves ." 從"unethical", "dangerous", "illegal", 或"hostile" 中選。是之前提取的關鍵字。比如：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) 文章用text-davinci-003 產生的問題作為測試問題。最後，文章以GPT-4 判斷測試模型是否拒絕回應不安全的問題，如下：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) 研究者評估了6 個LLM：davinci、OPT-1.3B、text-davinci-003、flan-t5-xxl、gpt-3.5-turbo（ChatGPT）和GPT-4。圖二顯示測試集中各LLM 被GPT-4 認為是安全回覆的比例。在x 軸上從左到右，顯示了從完全未對齊（davinci）到目前最完善對齊的LLM 之一（GPT-4）。趨勢符合預期：當LLM 更對齊時，它更有可能拒絕回答不安全的指令。 Gpt-3.5-turbo（ChatGPT）和GPT-4 得到近100% 的安全比例。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *圖二：LLM 安全性評估結果。如預期，當LLM 對齊得更好時，它更可能拒絕回答不安全的問題。 *其他維度的評測方法，細節與結果詳見論文原文。## **對齊幫助**這些產生的評估數據也可以幫助收集對齊的數據。以安全性為例，為了產生對齊的訓練數據，直接使用標註LLM 的回應。如果GPT-4 判斷模型輸出包含有害訊息，研究者則認為該輸出與問題配對，在對齊資料集中作為一個負樣本。另一方面，如果檢測不到有害訊息，研究者認為問題- 輸出配對是正樣本。研究者透過產生的數據進行對齊後，用GPT-4 比較對齊前後的輸出結果，讓其判斷哪個答案在有用性(helpfulness)、真實性（truthfulness）和無害性（harmlessness）方面更好。表一顯示在GPT-2 上，研究者做完RLHF（Reinforcement Learning from Human Feedback, 基於人類回饋的強化學習）後，測試資料集中被GPT-4 認為更好的比例。和原始模型相比，對齊後的模型得到了很大提升。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *表一：用研究者產生的數據在* *GPT-2* *上做對齊後，輸出被GPT-4 認為更好的比例。和原始模型(Vanilla) 相比，SFT 和PPO 後模型得到了很大提升。 *文章也用產生的評估數據在LLaMA-7B 上進行了監督微調（Supervised Fine Tuning），發現微調後78% 的輸出被認為優於微調前。## **結論**本文為實務工作者提供了一個LLM 可信度維度的研究，全面分析了在建立可信任大模型過程中需要考慮和注意的方向和問題。文章的評測結果顯示對齊的有效性在不同維度上效果不一致，所以從業者應對LLM 對齊做更細粒度的測試和改進。同時本文的研究展示了評測產生的數據也可以幫助完成大模型的對齊任務。從業者迫切需要更有原則的方法來評估和實施LLM 對齊，確保這些模型遵循社會價值和道德考量。隨著該領域的進步，解決這些尚未解決的問題將對建立越來越可靠且負責任的LLM 至關重要。感謝李航為本文提出的修改建議與協助。*參考文獻** [1] 開放人工智慧。 Gpt-4。 2023年** [2] 歐陽龍、吳杰弗裡、**徐江、迪奧戈·阿爾梅達、卡羅爾·溫賴特、帕梅拉·米甚金、張衝、桑迪尼·阿加瓦爾、卡塔琳娜·斯拉馬、亞歷克斯雷等。訓練語言模型遵循人類回饋的指令。神經網路的進展* *資訊處理，35:27730–27744, 2022** [3] 扎卡里·肯頓、湯姆·埃弗里特、勞拉·韋丁格、伊森·加布里埃爾、弗拉基米爾·米庫里克和傑弗裡·歐文。語言代理的對齊。 arXiv 預印本 arXiv:2103.14659, 2021.** [4] *