📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
吃「有毒」數據,大模型反而更聽話了! 來自港科大&華為諾亞方舟實驗室
來源:量子位
來自香港科技大學和華為諾亞方舟實驗室的最新研究發現:
相比於一味規避“有毒”數據,以毒攻毒,乾脆給大模型喂點錯誤文本,再讓模型剖析、反思出錯的原因,反而能夠讓模型真正理解“錯在哪兒了”,進而避免胡說八道。
一起來看詳情。
從錯誤中學習的對齊框架
現有的大語言模型對齊演算法主要歸為兩大類:
SFT方法主要依賴於海量人工標註的問答對,目的是使模型學習“完美的回復”。 但其缺點在於,模型很難從這種方法中獲得對“不良回復”的認知,這可能限制了其泛化能力。
RLHF方法則通過人類標註員對回復的排序打分來訓練模型,使其能夠區分回復的相對品質。 這種模式下,模型學會了如何區分答案的高下,但它們對於背後的“好因何好”與“差因何差”知之甚少。
總的來說,這些對齊演算法執著於讓模型學習「優質的回復」,卻在數據清洗的過程中遺漏了一個重要環節——從錯誤中汲取教訓。
能不能讓大模型像人類一樣,「吃一塹,長一智」,即設計一種對齊方法,讓大模型既能從錯誤中學習,又不受含有錯誤的文本序列影響呢?
香港科技大學和華為諾亞方舟實驗室的研究團隊對此進行了實驗。
通過對Alpaca-7B、GPT-3和GPT-3.5這三個模型的實驗分析,他們得出了一個有趣的結論:
對於這些模型,識別錯誤的回復,往往比在生成回復時避免錯誤來得容易。
**
**△判別比生成更容易
並且,實驗還進一步揭示,通過提供適當的指導資訊,例如提示模型“回復中可能存在錯誤”,模型識別錯誤的準確性可以得到顯著提升。
基於這些發現,研究團隊設計了一種利用模型對錯誤的判別能力來優化其生成能力的全新對齊框架。
對齊流程是這樣的:
(1)錯誤誘導
這一步的目標是誘導模型產生錯誤,發現模型的弱點所在,以便後續進行錯誤分析和修正。
這些錯誤案例可以來自於現有的標註數據,或者是模型在實際運行中被用戶發現的錯例。
該研究發現,通過簡單的紅隊攻擊誘導,例如向模型的指令中添加某些誘導性關鍵字(如“unethical”和“offensive”),如下圖(a)所示,模型往往會產生大量不恰當的回復。
(2)基於提示引導的錯誤分析
當收集到足夠多包含錯誤的問答對后,方法進入第二步,即引導模型對這些問答對進行深入分析。
具體來說,該研究要求模型解釋為什麼這些回復可能是不正確或不道德的。
如下圖(b)所展示,通過為模型提供明確的分析指導,比如詢問“為什麼這個答案可能是錯誤的”,模型通常能給出合理的解釋。
(3)無引導性的模型微調
在收集了大量的錯誤問答對及其分析后,該研究使用這些數據來進一步微調模型。 除了那些包含錯誤的問答對,也加入了正常的人類標註問答對作為訓練數據。
如下圖(c)所示,在這一步驟中,該研究並沒有給模型任何關於回復中是否包含錯誤的直接提示。 這樣做的目的是鼓勵模型自行思考、評估並理解出錯的原因。
(4)基於提示引導的回復生成
推理階段採用了基於引導的回復生成策略,明確提示模型產生“正確的、符合道德且無冒犯性”的回復,從而確保模型遵守道德規範,避免受到錯誤文本序列影響。
即,在推理過程中,模型基於符合人類價值觀的生成指導,進行條件生成,從而產生恰當的輸出。
以上對齊框架無需人類標註以及外部模型(如獎勵模型)的參與,模型通過利用自身對錯誤的判別能力對錯誤進行分析,進而促進其生成能力。
就像這樣,「從錯誤中學習」可以準確識別使用者指令當中的潛在風險,並做出合理準確的回復:
實驗結果
研究團隊圍繞兩大實際應用場景展開實驗,驗證新方法的實際效果。
場景一:未經過對齊的大語言模型
以Alpaca-7B模型為基線,該研究採用了PKU-SafeRLHF Dataset數據集進行實驗,與多種對齊方法進行了對比分析。
實驗結果如下表所示:
當保持模型的有用性時,“從錯誤中學習”的對齊演算法在安全通過率上相比SFT、COH和RLHF提高了大約10%,與原始模型相比,提升了21.6%。
同時,該研究發現,由模型自身產生的錯誤,相較於其他數據源的錯誤問答對,展現出了更好的對齊效果。
場景二:已對齊模型面臨新型指令攻擊
研究團隊進一步探索了如何加強已經過對齊的模型,以應對新出現的指令攻擊模式。
這裡,該研究選擇了ChatGLM-6B作為基線模型。 ChatGLM-6B已經經過安全對齊,但面對特定指令攻擊時仍可能產生不符合人類價值觀的輸出。
研究人員以「目標劫持」這種攻擊模式為例,並使用含有這一攻擊模式的500條數據進行了微調實驗。 如下表所示,「從錯誤中學習」的對齊演算法在面對新型指令攻擊時展現出了強大的防禦性:即使只使用少量的新型攻擊樣本數據,模型也能成功保持通用能力,並在針對新型攻擊(目標劫持)的防禦上實現了16.9%的提升。
實驗還進一步證明,通過「從錯誤中學習」策略獲得的防禦能力,不僅效果顯著,而且具有很強的泛化性,能夠廣泛應對同一攻擊模式下的多種不同話題。
論文連結: