語言模型有重大缺陷,知識推演竟然是老大難

驚人發現:大模型在知識推演上有嚴重缺陷。

靈活運用知識是智慧的關鍵。人腦可以快速處理知識,如快速回答「《靜夜思》中有幾個月字」。那麼,大模型是否能進行類似操作?已知大模型可以透過思考鏈(Chain of Thought / CoT),先默寫《靜夜思》,再根據默寫內容回答問題,但這會使生成的文字冗長。相較之下,人類可以在大腦中完成簡單的知識推演,無需寫出中間步驟。那麼,超大語言模型能否在其人工腦(artificial brain) 中直接產生答案,而無需先寫下知識點呢?

**答案竟然是否定的!圖1/2/3 展示了GPT4 上的諸多反例。即使是最基本的分類(如判斷名人生日的奇偶性)和比較(如比較兩位總統的生日先後),竟然要透過思維鏈Chain of Thought。更糟的是,大模型幾乎完全無法逆向提取訓練集中的知識。 **

圖1:GPT4在知識分類/比較上出錯,但透過思考鏈可正確答案

圖2:GPT4的知識逆向搜尋錯誤範例

*圖3:雖然GPT4 能正確回答“某人的生日是哪天” 和“某數是否為偶數”,但在將兩者結合時,如果不用思維鏈(CoT) 正確率只有50%。在比較1900-1910 年間名人的生日時,其表現也近乎盲猜。 *

朱澤園(MetaAI) 和李遠志(MBZUAI) 的最新研究《語言模型物理學Part 3.2:知識的推演(manipulation)》集中探討了上面這些問題。

論文地址:

先問一個問題,像圖1/2/3 這樣的問題,是GPT4 對人的生日記憶不夠精確(壓縮比不夠,訓練loss 不夠低),還是未透過微調深化對奇偶性的理解?是否可以透過微調GPT4,使其能夠在模型內部組合現有知識,產生"生日的奇偶性" 這種新知識,從而無需依賴CoT 直接回答相關問題?由於我們不知道GPT4 的訓練資料集,無法微調。因此,作者提出透過可控訓練集,來更深入研究語言模型的「知識推演」 能力。

圖4:對GPT4 之類的預訓練模型,由於網路資料的不可控性,很難確定情形B/C/D 是否發生

在《語言模型物理學Part 3.1:知識的儲存與提取》中,作者創建了一個包含100k 個人物傳記的資料集。每個傳記包括人名和六個屬性:出生日期,出生地,大學專業,大學名稱,工作地點,工作單位。譬如:

安雅·布里爾·福格 (Anya Briar Forger) 來自新澤西州普林斯頓。她致力於傳播學的研究。她在加州門洛帕克獲得了工作經驗。她在 Meta Platforms 發展了自己的職業生涯。她於1996年10月2日來到這個世界。她在麻省理工學院攻讀高級課程。”

作者確保了傳記條目的多樣性,以幫助模型更好的訪問知識。在預訓練(pretrain) 後,模型能透過微調準確回答知識提取類別問題,如「Anya 的生日是哪天」(正確率接近100%)

接下來作者繼續微調,試圖讓模型學會知識推演類問題,如知識的分類/ 比較/ 加減。文章發現,自然語言模型在知識推演方面的能力非常有限,難以透過微調產生新知識,**即便它們只是模型已掌握知識的簡單變換/ 組合。 **

圖5:若微調時不使用CoT,讓模型進行知識的分類/ 比較/ 減法,需要海量的樣本或正確率極低- 實驗中用了100 個專業

如圖5,作者發現,儘管預訓練(pretrain)之後模型已經能準確回答每個人的生日(正確率接近100%),但要通過微調讓其回答“xxx 的出生月是偶數嗎?” 並達到75% 的正確率—— 別忘了盲猜有50% 的正確率—— 需要至少10000 個微調樣本。相較之下,如果模型能正確完成「生日」 和「奇偶性」 的知識組合,那麼根據傳統機器學習理論,模型只需學習對12 個月份進行二分類,通常約100 個樣本就足夠了!

同樣,模型預訓練之後能準確回答每個人的專業(共100 個不同專業),但即使用了50000 個微調樣本,讓模型比較“Anya 的專業和Sabrina 的專業哪個更好”,正確率僅為53.9%,近乎盲猜。

然而,當我們使用CoT 微調讓模型學習「Anya 的出生月是October,因此是偶數」 這樣的句子時,模型在測試集上判斷出生月奇偶性的正確率大幅提升(見圖5 的「test 用CoT” 一列)。

作者也嘗試在微調訓練資料中混合CoT 和非CoT 的回答,結果發現模型在測試集上不使用CoT 時的正確率仍然很低(見圖5 的「test 不用CoT」一列)。這說明,即便補上足夠的CoT 微調數據,模型依然無法學會「顱內思考」 並直接報答案。

這些結果表明,**對於語言模型來說,進行簡單的知識運算極為困難!模型必須先把知識點寫出來再進行運算,無法像人一樣在大腦裡直接進行操作,即使經過充分的微調也無濟於事。 **

逆向知識搜尋的挑戰

文章也發現,自然語言模型無法逆向搜尋所學到的知識。儘管它能回答關於某人的所有信息,但無法根據這些信息確定人名。

和知識的分類/ 比較一樣,作者對GPT3.5/4 進行了試驗,發現它們在逆向知識提取上表現差(見圖6)。但由於我們無法確定GPT3.5/4 的訓練集,這並不能證明所有語言模型都有此問題。

*圖6:比較GPT3.5/4 的正向/ 逆向知識搜尋。幾天前我們報道的「逆轉詛咒」工作(arxiv 2309.12288)也在現有的大模型上觀察到了這一點。 *

作者利用前述的人物傳記資料集,對模型的逆向知識搜尋能力進行了更深入的可控試驗(controlled experiment)。由於所有傳記的人名都在段首,作者設計了10 個反向資訊擷取問題,例如:

“請告訴我1996 年10 月2 日在Princeton, NJ 出生的人的名字是什麼?”

「請告訴我在MIT 學習Communications ,1996 年10 月2 日在Princeton, NJ 出生,並在Menlo Park, CA 的Meta Platforms 工作的人的名字是什麼?”

圖7:名人傳記資料集上的可控試驗

作者驗證了,儘管模型實現了無損知識壓縮和充分知識增強,且能幾乎100% 正確提取這些知識,在經過微調後,模型仍無法進行知識的逆向搜索,準確率幾乎為零(見圖7) 。但是,一旦逆向知識直接出現在預訓練集中,逆向搜尋的準確率立即飆升。

綜上所述,只有在預訓練集(pretrain data) 中直接包含了逆向知識時,模型才能透過微調來回答逆向問題—— 但這實際上是作弊,因為如果知識已經反轉,就不再是“逆向知識搜尋” 了。如果預訓練集只包含正向知識,模型無法透過微調來掌握逆向回答問題的能力。因此,使用語言模型進行**知識索引(knowledge database) 目前看來是不可能的。 **

另外,有人可能會認為,上述「逆向知識搜尋」 的失敗可能是由於自回歸(autoregressive) 語言模型如GPT 的單向性。但實際上,雙向語言模式如BERT 在知識擷取上表現較差,甚至在正向擷取上也會失敗。有興趣的讀者可以參考論文細節。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)