GPT-4不知道自己錯了！ LLM新缺陷曝光，自我糾正成功率僅1%，LeCun馬庫斯驚呼越改越錯

巴比特_

2023-10-22 05:30:11

GPT-4根本不知道自己犯錯？最新研究發現，LLM在推理任務中，自我糾正後根本無法挽救性能變差，引AI大佬LeCun馬庫斯圍觀。

原文來源：新智元

圖片來源：由無界AI生成

大模型又被爆出重大缺陷，引得LeCun和馬庫斯兩位大佬同時轉發關注！

在推理實驗中，聲稱可以提高準確性的模型自我糾正，把正確率從16%「提高」到了1%！

簡單來說，就是LLM在推理任務中，無法通過自我糾正的形式來改進輸出，除非LLM在自我糾正的過程中已經知道了正確答案。

由ASU研究人員發表的兩篇論文，駁斥了之前很多研究提出的方法「自我糾正」——讓大模型對自己的輸出的結果進行自我糾正，就能提高模型的輸出品質。

論文位址：

論文的共同作者Subbarao Kambhampati教授，一直致力於AI推理能力的相關研究，9月份就發表過一篇論文，甚至全盤否定了GPT-4的推理和規劃能力。

論文位址：

而除了這位教授之外，最近DeepMind和UIUC大學的研究者，也針對LLM在推理任務中的「自我糾正」的能力提出了質疑。

這篇論文甚至呼籲，所有做相關研究的學者，請嚴肅對待你們的研究，不要把正確答案告訴大模型之後再讓它進行所謂的「自我糾正」。

因為如果模型不知道正確答案的話，模型「自我糾正」之後輸出品質反而會下降。

接下來，就具體來看看這兩篇最新論文。

GPT-4「自我糾正」，輸出結果反而更差

第一篇論文針對GPT-4進行研究，讓GPT-4對圖形著色問題提供解決方案，然後讓GPT-4對於自己提出方案進行「自我糾正」。

同時，作者再引入一個外部的評估系統對GPT-4的直接輸出，和經過了「自我糾正」循環之後的輸出進行評價。

實驗結果顯示，GPT-4在猜測顏色方面的準確率還不到20%，這個數值似乎並不讓人意外。

但令人驚訝的是，「自我糾正」模式下的準確性卻大幅下降（下圖第二根柱狀條）——與所有自我糾正本意完全背道而馳！

作者認為，這種看似反直覺的情況可以這麼解釋：GPT-4在驗證正確答案的表現也很糟糕！

因為即使當GPT-4偶然猜到正確顏色時，它的「自我糾正」會使它覺得正確答案是有問題的，然後就把正確答案給替換掉了。

通過進一步研究后還發現：如果外部驗證器給GPT-4猜測出的顏色提供了可以被證實的正確答案，GPT-4確實會改進它的解決方案。

在這種情況下，經過「自我糾正」產生的提示詞，確實可以提高輸出結果的品質（上圖的第3-5根柱狀圖）

總結來看，就是對於「著色問題」任務，GPT-4獨立的「自我糾正」反而會損害輸出的性能，因為GPT-4沒法驗證答案是否正確。

但是如果能提供外部的正確驗證過程，GPT-4生成的「自我糾正」確實能提升性能。

而另一篇論文，從規劃任務的角度來研究了大語言模型「自我糾正」的能力，研究結果也和上一篇論文類似。

而且，研究人員發現，真正能提高輸出準確性的不是LLM的「自我糾正」，而是外部獨立驗證器的反饋。

歸根結底，還是在於LLM沒有辦法進行獨立的驗證，必須依賴外部的驗證器給出的「正確答案」，才能有效地進行「自我糾正」。

「著色問題」表現不佳，LLM無法獨立驗證正確答案

研究設計框架

「著色問題」是非常經典的推理問題，即使難度不大，答案也足夠多樣性，而且答案的正確性很容易進行驗證。

多樣性的結果使得LLM的訓練數據很難覆蓋全，盡量避免了LLM的訓練數據被污染的可能。

這些原因使得「著色問題」很適合用來研究LLM的推理能力，也很方便用來研究LLM在推理中「自我糾正」的能力。

研究人員構建了自己的數據集，使用GrinPy2來處理常見的圖操作。每個圖都是使用Erdos-Rényi方法（ ̋p = 0.4）構造的。

一旦找到正確的答案，它就會被編譯成標準的DIMACS格式，並附加上一個包含其預計算的色數（chromatic number）的註釋。

對於接下來的實驗，研究人員生成了100個實例，每個實例平均有24條邊，分佈在從10到17的節點數範圍內——這一分佈是因為經驗顯示，它是一個表現足夠多變的範圍。

研究人員使用的圖例如下圖1所示，這個流程包括LLM的第一次回復、該回復的返回提示（back）以及最終正確的圖色方案。

### 迭代返回提示（Iterative Backing）的架構

提示產生器（ Generator）：

這個提示詞生成器會選取一個DIMACS實例，並將每條邊翻譯成一個句子，然後將整體包裹在一組通用指令中，從而構造出一個自然語言提示詞。

研究人員有意縮小不同實例提示之間的差異，以減少研究人員向LLM洩露的問題特定資訊。各種類型提示的範例可以在附錄中找到。

大型語言模型：

通過OpenAI API來調用GPT-4，這是當前最先進的模型。

研究人員提供一個系統角色：「你是一個解決各種CSP（約束滿足問題）的約束滿足求解器」。

返回提示詞生成（Back Generation）

在驗證模式下，LLM收到一種不同類型的提示。

除了標準指令外，它只包含圖的描述和建議的著色方案。它的任務是驗證正確性、最優性以及每個頂點是否都已經被塗上了一個顏色。

如果生成的回復中有一組邊是矛盾的，那著色方案就是錯誤的。

為了比較每個點，研究人員還構建了一個能夠列出每一條矛盾邊的驗證器。

由於LLM的回應也是自然語言形式的，研究人員首先將它們翻譯成便於分析的格式。為了使這個過程更加一致，研究人員設計了最初的提示，以描述一個模型需要遵循的精確輸出格式。然後，該回應會被評估其正確性。

為了判斷LLM驗證結果，研究人員會檢查它們在找出建議的著色方案中的錯誤方面表現如何。

直觀地說，這些應該很容易識別：如果組成一個邊的兩個頂點共用一個顏色，立即返回該邊。從演算法角度看，只需要檢測所有的邊並比較每個頂點的顏色與其連接點的顏色即可。

驗證

為了更深入瞭解LLM的驗證能力，研究人員研究了它們在找出提出的著色方案中的錯誤方面的表現。

直觀來說，這些錯誤應該很容易識別：如果組成一個邊的兩個頂點共用一個顏色，則立即返回該邊。從演算法角度來看，所有需要做的就是遍歷所有邊，並將每個頂點的顏色與其對應頂點的顏色進行比較。

研究人員使用相同的分析流程，但構建了一個研究人員稱為color_verification的新域。 LLM被引導去檢查著色的正確性、最優性以及是否每個頂點都已經被賦予了一個顏色。

如果著色是不正確的，它被指示列出著色中的錯誤，即如果兩個連接的節點共用一種顏色，就返回該邊以表示該錯誤。沒有給出返回提示（backs）。

研究人員使用之前相同的圖實例，但生成了四種用於測試模型的著色方案：

正確（Correct）：通過反覆運算的、隨機的貪婪演算法生成的沒有錯誤的最優著色方案（使用預先計算的色數以確保最優性）。

缺失（Ablated）：將先前一組著色方案中的一個隨機節點改變為其鄰居的顏色。

非最優（Non-optimal）：在正確的集合中，隨機選擇一個顏色部分重新著色為一個新的色調。

隨機（Random）：完全隨機分配的顏色，不同顏色的數量等於圖的色數。

LLM：從先前實驗中LLM生成的輸出中隨機選取的著色方案。

結論

對LLM進行提示、評估答案，並在沒有任何返回提示（backs）的情況下就會進入下一個實例，得到的基線分數為16%。

當研究人員運行相同的實例，但這次使用由相同的語言模型充當驗證者生成的反饋進行返回提示時，性能急劇下降——100個實例中只有一個得到了正確的回答。

與外部合格的驗證器進行返回提示的結果起初看似更有效果。

正確回答的實例數量接近40%，但如果這意味著GPT-4在聽取、改進，並根據反饋進行推理，那麼研究人員期望更準確的返回提示會帶來更好的結果。

然而，在這個域中，原始分數（見上圖2）並沒有證明這一點。

LLM的驗證能力

研究人員測試了GPT-4在相同實例上驗證圖著色方案的能力，為每種實例生成了五種不同類型的著色方案。

明顯的結果是，與上面的LLM自我糾正結果完全一致：模型幾乎不願將任何答案標記為正確。在100個最優著色方案中，它只同意其中2個是正確的。

整個500個著色方案的集合，其中118個是正確的，它只聲稱其中30個是正確的。在這30個中，其實只有5次是正確的。

總體而言，這一模式保持不變。在不到10%的案例中，LLM給出了「正確」、「非最優」或「缺少賦值」的反應。在這些情況中，行為看似有些隨機。

在大約四分之一的實例中，它用「這是不正確的」驗證作出回應，而解釋與現實相符，而且它只通過指明不超過一個邊來實現這一點，從而最小化了錯誤陳述某事的機會。

結果如上表2所示。請注意，當域的錯誤率增加時，幻覺比例下降。也就是說，當有更多的不正確的邊時，模型更有可能指出其中出錯的情況。

LLM自我批評，性能不增反減

在12日提交的論文中，作者同樣得出了與上面一致的結論。

無論是規劃，還是簡單的算術或邏輯，當前最先進的大模型GPT-4也無法完全勝任。

許多研究人員對其進行了許多的探索和改進，其中就包括讓LLM學會自我反覆運算、自我驗證等策略來提升性能。

由此，業界人們樂觀地認為，大模型還有救！

然而，經典意義上的推理任務複雜性與大模型無關，因為LLM是採用近似檢索而非精確推理的模型。

在12日提交arXiv的論文中，ASU研者系統地評估和分析LLM在規劃任務中的自我批評，以及反覆運算優化的能力。

研究中，作者提出了一個包含生成器LLM和驗證器LLM的規劃系統。

其中，GPT-4生成器負責生成候選計劃，GPT-4驗證器負責驗證計劃的正確性並提供反饋。

然後，研究人員在Blocksworld規劃領域上進行了實驗，並對以下方面進行了實證評估：

自我批評對整個LLM+LLM系統的計劃生成性能的影響
驗證器LLM相對於地面真值驗證的性能;
在批評LLM生成時，同反饋級別對整體系統性能的影響。

結果表明，與使用外部可靠的驗證器相比，自我批評會降低LLM規劃生成性能。

性能下降可以直接歸因於驗證器LLM的糟糕結果，驗證器LLM產生了大量的假陽性，這可能嚴重損害系統的可靠性。

驗證器LLM的二元分類準確率僅為61%，存在大量的假陽性（將錯誤規劃判斷為正確）。

另外，根據反饋的詳細程度對比，發現其對規劃生成性能影響不大。

總的來說，這項研究的系統調查提供了初步證據，對於LLM作為反覆運算、自我批評框架內規劃任務驗證者的有效性提出質疑。

作者介紹

蘇巴拉奧·坎巴帕蒂

Subbarao Kambhampati是亞利桑那州立大學計算機科學教授。 Kambhampati研究規劃和決策中的基本問題，特別是受人類感知人工智慧系統挑戰的推動。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。