背誦不等於理解，深度解析大模型背後的知識儲存與擷取

2023-09-28 06:39:47

來源：機器之心

隨著模型規模的增大，人們開始探索大模型是如何掌握大量知識的。一種觀點認為這歸功於“無損壓縮”，即模型通過大量訓練，記憶更多內容以提高預測精度。但「無損壓縮」真的能讓大模型理解這些知識嗎？ 朱澤園(MetaAI) 和李遠志(MBZUAI) 的最新研究《語言模型物理學Part 3.1：知識的儲存與提取》深入探討了這個問題。

論文地址：

對於人類，有句話叫「書讀百遍，其意自現」。這句話雖不適用於所有知識，但對於簡單知識，只要我們能記住相關書籍，就能輕鬆回答相關問題。例如，只要我們記住古詩“靜夜思”，就能輕鬆回答“詩裡把月光比作了什麼？”；只要我們記住百度百科關於“出師表/ 創作背景” 那一段，就能輕鬆回答“出師表的創作時間是什麼？」。那麼，大模型是否也能做到這一點呢？

圖1：GPT-4 的一些知識擷取的實例（左圖為ChatGPT，右圖為API）

GPT-4 雖然能理解並複述與問題相關的段落，但為何它無法像人類一樣回答簡單的問題呢？是因為模型不夠大，記憶力不足，還是訓練後的微調不夠？都不是！文章指出，即使自然語言模型夠大，訓練時間夠長，微調也夠充分，但它仍可能無法回答人類認為簡單的問題。這其中的深層原因，與知識在預訓練資料集(pretrain data) 中的呈現方式有關。同一知識，需要在預訓練資料集中多次出現，且具有足夠的“多樣性”，微調後才更容易被提取出來。

為了證實這一點，兩位作者創建了一個包含100k 個人物傳記的資料集，每個人物都有一個傳記條目，包含人名和六個固定屬性：出生日期，出生地，大學專業，大學名稱，工作地點，工作單位。他們設計了BioS 和BioR 兩種資料集，BioS 的每個句子選自50 種固定模板，BioR 則用LLaMA-30B 進行改寫，更逼真，多樣性更大。兩種資料集的結果一致，以下以BioS 為例，展示一個範例條目：

Anya Briar Forger 出生於 1996 年 10 月 2 日。她在新澤西州普林斯頓度過了早年。她得到了麻省理工學院教師的指導和指導。她完成了學業，主修傳播。她在 Meta Platforms 擔任專業職務。她受僱於加州門洛帕克。

圖2

一個自然語言模型即使完美地預訓練(pretrain) 了100k 個人的自傳，也無法透過QA 微調(finetuning) 準確回答「Anya 本科念了哪所學校」這樣的問題。如圖2 所示，即使使用50k 的人作為QA 微調訓練數據，嘗試各種微調方法，包括LoRA，模型在剩下的50k 人上的正確率也只有10%。即使使用了682M 的模型（比人數大7000 倍），訓練了1350 遍，作者甚至加入了WikiBook 等標準NLP 預訓練數據，正確率也沒有提升。可見「大力出奇蹟」並沒有發生。

因此，大模型不一定能掌握或提取「無損壓縮」的知識。那麼GPT-4 是如何掌握知識的呢？為了研究這個問題，兩位作者對預訓練集進行改變── 作者稱之為知識增強：

1.多樣性- multiM：為每個人創建M 個傳記條目，使用不同的敘述語言但保留相同的資訊（每句話一共有100 種敘述方法，每條傳記的每句話從中選取一種）

2、隨機排列- permute：對傳記句子進行隨機排列

3.全名- fullname：將傳記裡所有代名詞、姓、名替換全名

作者把原始資料集稱為bioS single，並試驗了15 種知識增強組合。例如，bioS multi5+permute 表示每人有5 個傳記，語序打亂。以下是bioS multi5+permute 的範例：

Anya Briar Forger 來自新澤西州普林斯頓。她致力於傳播學的研究。她在加州門洛帕克獲得了工作經驗。她在 Meta Platforms 發展了自己的職業生涯。她於 1996 年 10 月 2 日來到這個世界。她在麻省理工學院攻讀高級課程。

對於人和大模型，記住bioS single 和bioS multi5+permute 兩個資料集的難度幾乎相同（它們資訊量相同，並且每句話都是選自50 個模板）。那麼，如果在這個新的知識增強資料集上進行預訓練(pretrain)，然後QA 微調，會有什麼新的表現嗎？

圖3

图 3 显示，bioS single 预训练模型的 QA 正确率仅为 9.7%，而 bioS multi5+permute 预训练模型的正确率高达 96.6%。这个显著的提升与模型的微调、大小或训练时间无关，而是与知识在预训练 (pretrain) 中的呈现方式有关，即知识如何被大模型 “背诵”。

研究也發現，將傳記分為名人(celebrity) 和少數群體(minority)，只要名人傳記有知識增強，即使少數群體沒有，模型對少數群體的知識提取正確率也會大幅提升—— 當然，最好的效果還是需要對所有數據進行知識增強。

圖4：僅僅透過增加名人(celebrity) 的訓練資料多樣性，少數群體的知識提取正確率激增

那麼為何背誦不同數據後，模型的問題回答能力差異大呢？為何反覆背誦名人傳記，可以讓少數族群的知識擷取能力也增強？原因是由於模型採取了不同的記憶方式。

作者透過兩種線性探針(linear probing) 深入探討了模型的記憶知識的原則。我們來看其中一種叫P 探針(P-probing) 的方法。

在P 探針中，我們輸入傳記條目到預訓練模型，訓練一個線性分類器預測六個目標屬性（如大學、專業等）。我們想看模型是否能在早於屬性的位置提取這些資訊。如果分類器在人名後立即顯示對「工作單位」有高準確率，表示模型直接學習了「Anya 的雇主是Meta」。如果只在傳記結尾達到高準確率，可能模型用了有缺陷的記憶方法，例如「某人生日是1996 年10 月2 日，大學是MIT，因此雇主是Meta」。

P 探針的試驗設計是這樣的。找出每個傳記中6 個屬性首次出現的位置，然後在這些位置的前一個位置，訓練一個線性分類器來預測每個目標屬性。這就產生了36 個分類任務。

*圖5：P 探針試驗結果顯示，預訓練資料集的知識增強使知識被存在更早的位置，部分甚至直接儲存在人名上。模型是否能透過微調回答問題，與預訓練時是否將資訊直接儲存在人名上有關（對比圖3 和圖5）。 *

P 探針試驗結果顯示，自然語言模型在預訓練時可以透過人名記住資訊以實現壓縮，也可以透過其他資訊（如「在MIT 就讀並且生日是1996 年10 月2 日的人的工作單位是...”）記憶。雖然第二種記憶方式對人來說“不自然”，但對模型來說兩種方法的壓縮比無異。如果模型採用第二種方式記住訊息，訓練結束後將無法透過微調回答問題。而透過知識增強，預訓練模型會逐漸傾向於學會使用第一種記憶方式。

有人可能會爭論，上述「知識提取」失敗可能是由於自回歸(autoregressive) 語言模型如GPT 的單向性。實際上，雙向語言模型如BERT 在知識提取上更差，對「Meta Platform」這類多詞組知識只能存儲，無法提取。有興趣的讀者可以參考論文第6 章。

總的來說，語言模型是否能回答“知識提取” 問題，不僅取決於“無損壓縮”，還與“如何在模型中壓縮” 有關。論文強調，預訓練過程中對關鍵但少見的資料進行知識增強是必要的（如使用ChatGPT 進行多次改寫）。如果沒有這一步，無論如何努力微調，已預訓練完的模型雖然無損壓縮了訓練數據，但是還是可能再也無法提取那些知識了！

結語

如何理解自然語言模型的工作原理？大多數研究者透過與GPT-4 等模型對話，推測其能力。然而，《語言模型物理學》系列論文的作者提出了一種更精確的方法，透過精細設計訓練資料和可控實驗，探究Transformer 的內部機制，解釋其處理AI 任務的能力。

在《Part 3.1：知識的儲存與提取》中，作者精確地測試了模型對不同資料的反應，找到了模型學習知識與能力與訓練資料的準確關係。

他們也發布了《Part 3.2：知識的操作》，進一步研究了模型如何在特定情況下操作知識。例如，如果大模型記住了《靜夜思》，能否透過微調使其推理出《靜夜思》的最後一句是「低頭思故鄉」？我們很快講為大家帶來後續報道。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
1/3
1餘幣寶年化收益破24%
42252 熱度
2Gate Launchpad IKA上線
44982 熱度
3以太坊交易量飆升
45736 熱度
4比特幣市場分析
53882 熱度
5Gate ETH十週年回饋
21302 熱度