📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
語言模型有重大缺陷,知識推演竟然是老大難
靈活運用知識是智慧的關鍵。人腦可以快速處理知識,如快速回答「《靜夜思》中有幾個月字」。那麼,大模型是否能進行類似操作?已知大模型可以透過思考鏈(Chain of Thought / CoT),先默寫《靜夜思》,再根據默寫內容回答問題,但這會使生成的文字冗長。相較之下,人類可以在大腦中完成簡單的知識推演,無需寫出中間步驟。那麼,超大語言模型能否在其人工腦(artificial brain) 中直接產生答案,而無需先寫下知識點呢?
**答案竟然是否定的!圖1/2/3 展示了GPT4 上的諸多反例。即使是最基本的分類(如判斷名人生日的奇偶性)和比較(如比較兩位總統的生日先後),竟然要透過思維鏈Chain of Thought。更糟的是,大模型幾乎完全無法逆向提取訓練集中的知識。 **
朱澤園(MetaAI) 和李遠志(MBZUAI) 的最新研究《語言模型物理學Part 3.2:知識的推演(manipulation)》集中探討了上面這些問題。
先問一個問題,像圖1/2/3 這樣的問題,是GPT4 對人的生日記憶不夠精確(壓縮比不夠,訓練loss 不夠低),還是未透過微調深化對奇偶性的理解?是否可以透過微調GPT4,使其能夠在模型內部組合現有知識,產生"生日的奇偶性" 這種新知識,從而無需依賴CoT 直接回答相關問題?由於我們不知道GPT4 的訓練資料集,無法微調。因此,作者提出透過可控訓練集,來更深入研究語言模型的「知識推演」 能力。
在《語言模型物理學Part 3.1:知識的儲存與提取》中,作者創建了一個包含100k 個人物傳記的資料集。每個傳記包括人名和六個屬性:出生日期,出生地,大學專業,大學名稱,工作地點,工作單位。譬如:
安雅·布里爾·福格 (Anya Briar Forger) 來自新澤西州普林斯頓。她致力於傳播學的研究。她在加州門洛帕克獲得了工作經驗。她在 Meta Platforms 發展了自己的職業生涯。她於1996年10月2日來到這個世界。她在麻省理工學院攻讀高級課程。”
作者確保了傳記條目的多樣性,以幫助模型更好的訪問知識。在預訓練(pretrain) 後,模型能透過微調準確回答知識提取類別問題,如「Anya 的生日是哪天」(正確率接近100%)
接下來作者繼續微調,試圖讓模型學會知識推演類問題,如知識的分類/ 比較/ 加減。文章發現,自然語言模型在知識推演方面的能力非常有限,難以透過微調產生新知識,**即便它們只是模型已掌握知識的簡單變換/ 組合。 **
如圖5,作者發現,儘管預訓練(pretrain)之後模型已經能準確回答每個人的生日(正確率接近100%),但要通過微調讓其回答“xxx 的出生月是偶數嗎?” 並達到75% 的正確率—— 別忘了盲猜有50% 的正確率—— 需要至少10000 個微調樣本。相較之下,如果模型能正確完成「生日」 和「奇偶性」 的知識組合,那麼根據傳統機器學習理論,模型只需學習對12 個月份進行二分類,通常約100 個樣本就足夠了!
同樣,模型預訓練之後能準確回答每個人的專業(共100 個不同專業),但即使用了50000 個微調樣本,讓模型比較“Anya 的專業和Sabrina 的專業哪個更好”,正確率僅為53.9%,近乎盲猜。
然而,當我們使用CoT 微調讓模型學習「Anya 的出生月是October,因此是偶數」 這樣的句子時,模型在測試集上判斷出生月奇偶性的正確率大幅提升(見圖5 的「test 用CoT” 一列)。
作者也嘗試在微調訓練資料中混合CoT 和非CoT 的回答,結果發現模型在測試集上不使用CoT 時的正確率仍然很低(見圖5 的「test 不用CoT」一列)。這說明,即便補上足夠的CoT 微調數據,模型依然無法學會「顱內思考」 並直接報答案。
這些結果表明,**對於語言模型來說,進行簡單的知識運算極為困難!模型必須先把知識點寫出來再進行運算,無法像人一樣在大腦裡直接進行操作,即使經過充分的微調也無濟於事。 **
逆向知識搜尋的挑戰
文章也發現,自然語言模型無法逆向搜尋所學到的知識。儘管它能回答關於某人的所有信息,但無法根據這些信息確定人名。
和知識的分類/ 比較一樣,作者對GPT3.5/4 進行了試驗,發現它們在逆向知識提取上表現差(見圖6)。但由於我們無法確定GPT3.5/4 的訓練集,這並不能證明所有語言模型都有此問題。
作者利用前述的人物傳記資料集,對模型的逆向知識搜尋能力進行了更深入的可控試驗(controlled experiment)。由於所有傳記的人名都在段首,作者設計了10 個反向資訊擷取問題,例如:
“請告訴我1996 年10 月2 日在Princeton, NJ 出生的人的名字是什麼?”
「請告訴我在MIT 學習Communications ,1996 年10 月2 日在Princeton, NJ 出生,並在Menlo Park, CA 的Meta Platforms 工作的人的名字是什麼?”
作者驗證了,儘管模型實現了無損知識壓縮和充分知識增強,且能幾乎100% 正確提取這些知識,在經過微調後,模型仍無法進行知識的逆向搜索,準確率幾乎為零(見圖7) 。但是,一旦逆向知識直接出現在預訓練集中,逆向搜尋的準確率立即飆升。
綜上所述,只有在預訓練集(pretrain data) 中直接包含了逆向知識時,模型才能透過微調來回答逆向問題—— 但這實際上是作弊,因為如果知識已經反轉,就不再是“逆向知識搜尋” 了。如果預訓練集只包含正向知識,模型無法透過微調來掌握逆向回答問題的能力。因此,使用語言模型進行**知識索引(knowledge database) 目前看來是不可能的。 **
另外,有人可能會認為,上述「逆向知識搜尋」 的失敗可能是由於自回歸(autoregressive) 語言模型如GPT 的單向性。但實際上,雙向語言模式如BERT 在知識擷取上表現較差,甚至在正向擷取上也會失敗。有興趣的讀者可以參考論文細節。