語言模型有重大缺陷，知識推演竟然是老大難

2023-10-02 05:11:12

驚人發現：大模型在知識推演上有嚴重缺陷。

靈活運用知識是智慧的關鍵。人腦可以快速處理知識，如快速回答「《靜夜思》中有幾個月字」。那麼，大模型是否能進行類似操作？已知大模型可以透過思考鏈（Chain of Thought / CoT），先默寫《靜夜思》，再根據默寫內容回答問題，但這會使生成的文字冗長。相較之下，人類可以在大腦中完成簡單的知識推演，無需寫出中間步驟。那麼，超大語言模型能否在其人工腦(artificial brain) 中直接產生答案，而無需先寫下知識點呢？

**答案竟然是否定的！圖1/2/3 展示了GPT4 上的諸多反例。即使是最基本的分類（如判斷名人生日的奇偶性）和比較（如比較兩位總統的生日先後），竟然要透過思維鏈Chain of Thought。更糟的是，大模型幾乎完全無法逆向提取訓練集中的知識。 **

圖1：GPT4在知識分類/比較上出錯，但透過思考鏈可正確答案

圖2：GPT4的知識逆向搜尋錯誤範例

*圖3：雖然GPT4 能正確回答“某人的生日是哪天” 和“某數是否為偶數”，但在將兩者結合時，如果不用思維鏈(CoT) 正確率只有50%。在比較1900-1910 年間名人的生日時，其表現也近乎盲猜。 *

朱澤園(MetaAI) 和李遠志(MBZUAI) 的最新研究《語言模型物理學Part 3.2：知識的推演(manipulation)》集中探討了上面這些問題。

論文地址：

先問一個問題，像圖1/2/3 這樣的問題，是GPT4 對人的生日記憶不夠精確（壓縮比不夠，訓練loss 不夠低），還是未透過微調深化對奇偶性的理解？是否可以透過微調GPT4，使其能夠在模型內部組合現有知識，產生"生日的奇偶性" 這種新知識，從而無需依賴CoT 直接回答相關問題？由於我們不知道GPT4 的訓練資料集，無法微調。因此，作者提出透過可控訓練集，來更深入研究語言模型的「知識推演」能力。

圖4：對GPT4 之類的預訓練模型，由於網路資料的不可控性，很難確定情形B/C/D 是否發生

在《語言模型物理學Part 3.1：知識的儲存與提取》中，作者創建了一個包含100k 個人物傳記的資料集。每個傳記包括人名和六個屬性：出生日期，出生地，大學專業，大學名稱，工作地點，工作單位。譬如：

安雅·布里爾·福格 (Anya Briar Forger) 來自新澤西州普林斯頓。她致力於傳播學的研究。她在加州門洛帕克獲得了工作經驗。她在 Meta Platforms 發展了自己的職業生涯。她於1996年10月2日來到這個世界。她在麻省理工學院攻讀高級課程。”

作者確保了傳記條目的多樣性，以幫助模型更好的訪問知識。在預訓練(pretrain) 後，模型能透過微調準確回答知識提取類別問題，如「Anya 的生日是哪天」（正確率接近100%）

接下來作者繼續微調，試圖讓模型學會知識推演類問題，如知識的分類/ 比較/ 加減。文章發現，自然語言模型在知識推演方面的能力非常有限，難以透過微調產生新知識，**即便它們只是模型已掌握知識的簡單變換/ 組合。 **

圖5：若微調時不使用CoT，讓模型進行知識的分類/ 比較/ 減法，需要海量的樣本或正確率極低－實驗中用了100 個專業

如圖5，作者發現，儘管預訓練（pretrain）之後模型已經能準確回答每個人的生日（正確率接近100%），但要通過微調讓其回答“xxx 的出生月是偶數嗎？” 並達到75% 的正確率—— 別忘了盲猜有50% 的正確率—— 需要至少10000 個微調樣本。相較之下，如果模型能正確完成「生日」和「奇偶性」的知識組合，那麼根據傳統機器學習理論，模型只需學習對12 個月份進行二分類，通常約100 個樣本就足夠了！

同樣，模型預訓練之後能準確回答每個人的專業（共100 個不同專業），但即使用了50000 個微調樣本，讓模型比較“Anya 的專業和Sabrina 的專業哪個更好”，正確率僅為53.9%，近乎盲猜。

然而，當我們使用CoT 微調讓模型學習「Anya 的出生月是October，因此是偶數」這樣的句子時，模型在測試集上判斷出生月奇偶性的正確率大幅提升（見圖5 的「test 用CoT” 一列）。

作者也嘗試在微調訓練資料中混合CoT 和非CoT 的回答，結果發現模型在測試集上不使用CoT 時的正確率仍然很低（見圖5 的「test 不用CoT」一列）。這說明，即便補上足夠的CoT 微調數據，模型依然無法學會「顱內思考」並直接報答案。

這些結果表明，**對於語言模型來說，進行簡單的知識運算極為困難！模型必須先把知識點寫出來再進行運算，無法像人一樣在大腦裡直接進行操作，即使經過充分的微調也無濟於事。 **

逆向知識搜尋的挑戰

文章也發現，自然語言模型無法逆向搜尋所學到的知識。儘管它能回答關於某人的所有信息，但無法根據這些信息確定人名。

和知識的分類/ 比較一樣，作者對GPT3.5/4 進行了試驗，發現它們在逆向知識提取上表現差（見圖6）。但由於我們無法確定GPT3.5/4 的訓練集，這並不能證明所有語言模型都有此問題。

*圖6：比較GPT3.5/4 的正向/ 逆向知識搜尋。幾天前我們報道的「逆轉詛咒」工作（arxiv 2309.12288）也在現有的大模型上觀察到了這一點。 *

作者利用前述的人物傳記資料集，對模型的逆向知識搜尋能力進行了更深入的可控試驗(controlled experiment)。由於所有傳記的人名都在段首，作者設計了10 個反向資訊擷取問題，例如：

“請告訴我1996 年10 月2 日在Princeton, NJ 出生的人的名字是什麼？”

「請告訴我在MIT 學習Communications ，1996 年10 月2 日在Princeton, NJ 出生，並在Menlo Park, CA 的Meta Platforms 工作的人的名字是什麼？”

圖7：名人傳記資料集上的可控試驗

作者驗證了，儘管模型實現了無損知識壓縮和充分知識增強，且能幾乎100% 正確提取這些知識，在經過微調後，模型仍無法進行知識的逆向搜索，準確率幾乎為零（見圖7）。但是，一旦逆向知識直接出現在預訓練集中，逆向搜尋的準確率立即飆升。

綜上所述，只有在預訓練集(pretrain data) 中直接包含了逆向知識時，模型才能透過微調來回答逆向問題—— 但這實際上是作弊，因為如果知識已經反轉，就不再是“逆向知識搜尋” 了。如果預訓練集只包含正向知識，模型無法透過微調來掌握逆向回答問題的能力。因此，使用語言模型進行**知識索引(knowledge database) 目前看來是不可能的。 **

另外，有人可能會認為，上述「逆向知識搜尋」的失敗可能是由於自回歸(autoregressive) 語言模型如GPT 的單向性。但實際上，雙向語言模式如BERT 在知識擷取上表現較差，甚至在正向擷取上也會失敗。有興趣的讀者可以參考論文細節。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
1/3
1Gate Launchpad IKA上線
50118 熱度
2以太坊重返3800
7070 熱度
3美歐達成關稅協議
5784 熱度
4加密總市值破4萬億美元
1042 熱度
5穩定幣監管動向
658 熱度