📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
DeepMind:大模型又曝重大缺陷,無法自我糾正推理,除非提前得知正確答案
原文來源:新智元
大語言模型又一項重大缺陷被DeepMind曝光!
LLM無法糾正自己推理中的錯誤。
「Self-Correction」作為一種讓模型修正自己回答的技術,在很多類型的任務中都能明顯改進模型的輸出品質。
但是最近,谷歌DeepMind和UIUC的研究人員卻發現,對於推理任務,LLM的「自我糾正機制」一下子就沒用了。
但是研究人員發現,在推理任務中,自我糾正之後的反饋有時很不錯,有時效果卻很不理想,甚至性能還會出現下降。
這是因為演算法可以準確地確定何時停止推理過程,並避免在答案已經正確時更改答案。
研究人員認為,先前的研究中往往會使用真實標籤來防止模型將正確答案更改為錯誤答案。 但如何防止這種「對改錯」情況的發生,實際上是確保自我糾正成功的關鍵。
因為當研究人員從自我糾正過程中刪除真實標籤時,模型的性能就會顯著下降。
作為改進LLM在推理任務上自我糾正方法的嘗試,研究人員還探究了「多智慧體辯論(multi-agent debate)」作為改進推理的手段的潛力。 然而,他們的結果表明,在考慮同等數量的回應時,這個方法的效果並不比自我一致性(Self-Consistency)更好。
他們將自我糾正視為事後提示的一種形式,其中糾正的提示是在LLM的回復之後再輸入的。
研究人員的分析表明,某些任務中自我糾正帶來的增強可能源於精心設計的反饋提示,掩蓋了簡陋的初始提示。
在這種情況下,將更好的反饋集成到初始指令中或設計更好的初始提示可能會產生更好的結果並降低推理成本。
根據研究人員的研究結果,研究人員深入探討了LLM自我糾正能力的細微差別,敦促研究社區能以更加嚴謹的態度來對待對自我糾的研究。
**大語言模型可以自我糾正自己的推理嗎? **
研究人員嘗試採用現有的自我糾正方法,採用其設置(使用標籤來指導自我糾正過程),以檢查其在提高LLM推理任務表現方面的有效性。
實驗設置
提示詞
研究人員採用三步提示策略進行自我修正:
1)提示模型進行初始生成(這也是標準提示的結果);
2)提示模型回顧其上一代併產生反饋;
3)通過反饋提示模型再次回答原來的問題。
模型
研究人員的主要測試是在 GPT-3.5-Turbo 上進行的。
研究人員還對2023年8月29日訪問的GPT-4進行了測試,旨在測試OpenAI模型最新、最強大的反覆運算的自我校正能力。
對於 GPT-3.5,研究人員採用前面提到的完整評估集。 對於 GPT-4,為了降低成本,研究人員為每個數據集隨機抽取了 200 個問題(HotpotQA 為 100 個問題)進行測試。
結果和思考
但是在現實環境中,尤其是當研究人員打算用LLM來解決數學問題時,大部分時候是不知道正確答案的。
因此,性能的提升需要更仔細的考慮。
為了證實這一觀點,研究人員設計了一個基於隨機猜測的基線。 在此基線中,研究人員繼續使用真值標籤來確定何時停止; 然而,糾正措施不是由LLM採取的,而是根據剩餘選項的隨機猜測得出的。
CommonSenseQA 是一個多項選擇題數據集,為每個問題提供五個候選選項。
如果第k輪(初始生成為第0輪)的生成精度表示為 x,則後續生成的預期精度變為 x + (1 − x)/(5 − k)。
2輪后,其性能與自校正相當甚至更好,4輪后,其準確率達到100%。
然而,很明顯,這樣的隨機基線不能被視為有效的校正方法。 儘管如此,使用標籤獲得的結果仍然可能起到預言機的作用,表明存在可以判斷答案正確性的完美驗證者。
在代碼生成等任務中,這是可行的,因為研究人員可以利用執行器和單元測試來確定生成的代碼是否成功運行(Chen 等人,2023b)。
然而,對於推理任務,比如解決數學問題,這種設置似乎違反直覺。 如果研究人員已經掌握了事實真相,那麼似乎就沒有理由再用LLM來解決問題。
內在自我修正
對於 GSM8K,可能不存在類似的隨機基線,但基本原理保持不變。
此外,研究人員可以設計一個基線,例如每次生成一個隨機數。 經過相當多的輪次后,它可能會得到正確的答案,但這樣的改進顯然沒有意義。 更直接的理由是:如果研究人員已經知道答案,為什麼還要這樣做?
實驗設置如前面內容定義的那樣。 為了實現這一點,研究人員只需刪除使用標籤來確定何時停止並通過兩輪自我校正來評估性能。
**為什麼性能反而下降了? **
對於CommonSenseQA,GPT-3.5改變其答案的可能性更高。 造成這種情況的主要原因是CommonSenseQA中的錯誤答案選項通常看起來與問題有些相關,並且使用自我更正提示可能會使模型偏向於選擇另一個選項,從而導致較高的「正確⇒錯誤」比率。
讓研究人員再看一下上表1中顯示的結果。 這些結果使用真值標籤來防止模型將正確答案更改為錯誤答案。
然而,如何防止這種「修改錯誤」的發生,實際上是確保自我糾錯成功的關鍵。
直觀的解釋是:如果該模型與精心設計的初始提示相匹配,那麼在給定提示和具體的解碼演演算法的情況下,初始響應應該已經是最佳的。
引入反饋可以被視為添加額外的提示,可能使模型偏向於生成適合該組合輸入的回應。
在內在自我糾正設置中,在推理任務中,這種補充提示可能不會為回答問題提供任何額外的優勢。
事實上,它甚至可能使模型偏離對初始提示產生最佳回復,從而導致性能下降。
有人可能會想,研究人員測試的自我修正提示是否不理想?
其他提示能否提高性能? 答案是:研究人員完全有可能找到一個在特定基準上增強模型性能的提示。 然而,這不再與本文討論的內在自我校正設置一致,類似於真正的少樣本設置的討論。
這種搜索本質上是利用人類或訓練範例的反饋。 此外,同樣的策略也可以有效地應用於優化初始提示,可能會獲得更好的性能,而無需額外的模型調用來進行自我校正。
在附錄B中,研究人員測試了不同的提示,但發現性能仍然沒有提高。
相反,研究人員的目標是解決一個更基本的問題——「大型語言模型真的能夠僅根據其固有的能力自我糾正其推理嗎?」
作為事後提示的自我糾正
在之前的內容中,研究人員觀察到LLM在自我糾正其推理方面面臨挑戰。
然而,正如之前研究所證明的那樣,在某些情況下自我糾正已經產生了令人印象深刻的結果。
因此,辨別差異並查明根本原因至關重要。
要解決這個問題,重要的是要掌握自我糾正的基本性質。 根據其形式,自我糾正可以被視為一種事後提示。
它與標準提示(這裡稱之為事前提示)的區別在於,提示是在LLM的回答之上進行的。
研究人員將改進此類提示的過程稱為事後提示工程。
因此,當自我糾正可以提供事前提示無法提供的有價值的指導或反饋時,就會出現自我糾正增強模型響應的情況。
例如,當目標是使回應更安全時,指導模型僅使用事前提示在第一次嘗試中生成完全無風險的回應可能具有挑戰性。 在這種情況下,自我糾正可以作為通過細粒度事後檢查來增強回應安全性的一種手段。
然而,對於推理任務來說,情況可能並非如此。
反饋提示,例如「查看您之前的答案並發現您的答案存在問題」。 不一定能為推理提供切實的好處。
此外,即使觀察到自我糾正後性能顯著提高,仔細考慮提示設計也是必要的。
例如,如果回應需要滿足可以在初始指令中輕鬆指定的標準(例如,輸出應包含某些單詞、生成的代碼需要高效、情緒應強烈負面),而不是提供這些要求作為事後提示中的反饋,更具成本效益的替代策略是將這些要求直接(明確地)嵌入到事前提示中。
此外,當研究人員利用他們的提示來改進研究人員的輸出時,性能甚至會下降。
再次強調,研究人員在這裡的目的並不是爭論是否存在事後提示可以勝過研究人員隨意編寫的提示。 研究人員的主要目標是鼓勵對自我校正實驗進行更嚴格的檢查。
採用精心設計的事後提示來指導模型「自我糾正」通過糟糕的事前提示生成的回應是沒有意義的。
為了公平比較,應在事前和事後提示上投入同等的努力。
參考資料: