吃「有毒」數據,大模型反而更聽話了! 來自港科大&華為諾亞方舟實驗室

來源:量子位

現在,大模型也學會“吃一堑,長一智”了。

來自香港科技大學和華為諾亞方舟實驗室的最新研究發現:

相比於一味規避“有毒”數據,以毒攻毒,乾脆給大模型喂點錯誤文本,再讓模型剖析、反思出錯的原因,反而能夠讓模型真正理解“錯在哪兒了”,進而避免胡說八道。

具體而言,研究人員提出了「從錯誤中學習」的對齊框架,並通過實驗證明:

讓大模型“吃一塹,長一智”,在糾正未對齊的模型方面超越了SFT和RLHF的方法,而且在對已對齊模型進行高級指令攻擊的防禦方面也具有優勢

一起來看詳情。

從錯誤中學習的對齊框架

現有的大語言模型對齊演算法主要歸為兩大類:

  • 有監督的微調(SFT)
  • 人類回饋的強化學習(RLHF)

SFT方法主要依賴於海量人工標註的問答對,目的是使模型學習“完美的回復”。 但其缺點在於,模型很難從這種方法中獲得對“不良回復”的認知,這可能限制了其泛化能力。

RLHF方法則通過人類標註員對回復的排序打分來訓練模型,使其能夠區分回復的相對品質。 這種模式下,模型學會了如何區分答案的高下,但它們對於背後的“好因何好”與“差因何差”知之甚少。

總的來說,這些對齊演算法執著於讓模型學習「優質的回復」,卻在數據清洗的過程中遺漏了一個重要環節——從錯誤中汲取教訓。

能不能讓大模型像人類一樣,「吃一塹,長一智」,即設計一種對齊方法,讓大模型既能從錯誤中學習,又不受含有錯誤的文本序列影響呢?

△“從錯誤中學習”的大語言模型對齊框架,包含4個步驟,分別是(1)錯誤誘導(2)基於提示指引的錯誤分析(3)無引導的模型微調(4)基於提示引導的回復生成

香港科技大學和華為諾亞方舟實驗室的研究團隊對此進行了實驗。

通過對Alpaca-7B、GPT-3和GPT-3.5這三個模型的實驗分析,他們得出了一個有趣的結論:

對於這些模型,識別錯誤的回復,往往比在生成回復時避免錯誤來得容易

** **△判別比生成更容易

並且,實驗還進一步揭示,通過提供適當的指導資訊,例如提示模型“回復中可能存在錯誤”,模型識別錯誤的準確性可以得到顯著提升。

基於這些發現,研究團隊設計了一種利用模型對錯誤的判別能力來優化其生成能力的全新對齊框架。

對齊流程是這樣的:

(1)錯誤誘導

這一步的目標是誘導模型產生錯誤,發現模型的弱點所在,以便後續進行錯誤分析和修正。

這些錯誤案例可以來自於現有的標註數據,或者是模型在實際運行中被用戶發現的錯例。

該研究發現,通過簡單的紅隊攻擊誘導,例如向模型的指令中添加某些誘導性關鍵字(如“unethical”和“offensive”),如下圖(a)所示,模型往往會產生大量不恰當的回復。

(2)基於提示引導的錯誤分析

當收集到足夠多包含錯誤的問答對后,方法進入第二步,即引導模型對這些問答對進行深入分析。

具體來說,該研究要求模型解釋為什麼這些回復可能是不正確或不道德的。

如下圖(b)所展示,通過為模型提供明確的分析指導,比如詢問“為什麼這個答案可能是錯誤的”,模型通常能給出合理的解釋。

(3)無引導性的模型微調

在收集了大量的錯誤問答對及其分析后,該研究使用這些數據來進一步微調模型。 除了那些包含錯誤的問答對,也加入了正常的人類標註問答對作為訓練數據。

如下圖(c)所示,在這一步驟中,該研究並沒有給模型任何關於回復中是否包含錯誤的直接提示。 這樣做的目的是鼓勵模型自行思考、評估並理解出錯的原因。

(4)基於提示引導的回復生成

推理階段採用了基於引導的回復生成策略,明確提示模型產生“正確的、符合道德且無冒犯性”的回復,從而確保模型遵守道德規範,避免受到錯誤文本序列影響。

即,在推理過程中,模型基於符合人類價值觀的生成指導,進行條件生成,從而產生恰當的輸出。

△“從錯誤中學習”的大語言模型對齊框架指令示例

以上對齊框架無需人類標註以及外部模型(如獎勵模型)的參與,模型通過利用自身對錯誤的判別能力對錯誤進行分析,進而促進其生成能力。

就像這樣,「從錯誤中學習」可以準確識別使用者指令當中的潛在風險,並做出合理準確的回復:

實驗結果

研究團隊圍繞兩大實際應用場景展開實驗,驗證新方法的實際效果。

場景一:未經過對齊的大語言模型

以Alpaca-7B模型為基線,該研究採用了PKU-SafeRLHF Dataset數據集進行實驗,與多種對齊方法進行了對比分析。

實驗結果如下表所示:

當保持模型的有用性時,“從錯誤中學習”的對齊演算法在安全通過率上相比SFT、COH和RLHF提高了大約10%,與原始模型相比,提升了21.6%

同時,該研究發現,由模型自身產生的錯誤,相較於其他數據源的錯誤問答對,展現出了更好的對齊效果。

△未經過對齊的大語言模型實驗結果

場景二:已對齊模型面臨新型指令攻擊

研究團隊進一步探索了如何加強已經過對齊的模型,以應對新出現的指令攻擊模式。

這裡,該研究選擇了ChatGLM-6B作為基線模型。 ChatGLM-6B已經經過安全對齊,但面對特定指令攻擊時仍可能產生不符合人類價值觀的輸出。

研究人員以「目標劫持」這種攻擊模式為例,並使用含有這一攻擊模式的500條數據進行了微調實驗。 如下表所示,「從錯誤中學習」的對齊演算法在面對新型指令攻擊時展現出了強大的防禦性:即使只使用少量的新型攻擊樣本數據,模型也能成功保持通用能力,並在針對新型攻擊(目標劫持)的防禦上實現了16.9%的提升。

實驗還進一步證明,通過「從錯誤中學習」策略獲得的防禦能力,不僅效果顯著,而且具有很強的泛化性,能夠廣泛應對同一攻擊模式下的多種不同話題。

△經過對齊的模型抵禦新型攻擊

論文連結:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)