長文本資訊準確率超過ChatGPT,Meta 提出降低大模型幻覺新方法

來源:量子位元

大模型的幻覺問題,又有新的解決方法了!

Meta AI實驗室提出了一種「分而治之」的解決方案。

有了這個方案,Llama-65B輸出的資訊準確率提升了一倍,甚至超過了ChatGPT

所謂大模型幻覺,就是輸出一些看似合理但完全不對的內容。

Meta這次提出的「驗證鏈」(CoVe),是與「思維鏈」(CoT)相似的一種鍊式方法

差別在於,「step-by-step」的思考鏈更著重邏輯推理,而驗證鏈則更注重事實資訊

有網友看了之後發現,這個驗證鏈很像是自己用ChatGPT寫程式碼時的科學方法:

那麼「驗證鏈」究竟是個什麼方法,「驗證」的又是什麼呢?

拆解答案,分而治之

驗證鏈的核心思想,是把要驗證的一大段內容,拆解成一個個小的問題,具體流程是這樣的:

首先,模型會根據使用者提出的問題照常產生回應。

接著,根據產生的回應內容,針對其中的各項訊息,產生一系列的驗證問題。

然後讓模型自行回答其所提出的這些問題,並根據結果對初始答案進行調整,得到最終結果。

舉個簡單的例子,假如想詢問模型19世紀美墨戰爭的主要原因是什麼。

模型回答了事件發生的時間,以及在這之前都發生了什麼事。

之後針對這一系列事件,逐一詢問它們是什麼時候發生的。

於是,模型發現自己提到的一項內容時間相差太遠,調整後給出了最終的答案。

其中,問題的產生與驗證是最關鍵的一環,對此,研究人員一共提出了四種具體的方式:

  • Joint,即將產生問題和回答的指令寫入同一段提示詞
  • 2-Step,即先讓模型產生提問,然後開啟新的對話(一次性)回答提出的問題
  • Factored,在2-Step的基礎上,對提出的每一個問題分別開啟新對話
  • Factor+Revise,在Factored的基礎之上加入一致性檢驗,讓模型聚焦在前後不一致的內容

這四種模式越來越細化,準確率也越來越高。

###### 從紅色開始,四種顏色依序代表無CoVe、Joint、Factored和Factor+Revise

那為什麼拆分提問就能提高模型的準確性呢?

首先是因為拆解後的問題比整體任務更容易,論述題變成了問答甚至選擇、判斷題,問題簡單了,準確率也就提升了

此外,把問題分解可以讓模型真正重新思考,而不是反覆地重複錯誤答案

那麼,驗證鏈方式的效果究竟如何呢?

資訊準確率超過ChatGPT

為了探究這個問題,研究人員用Llama進行了測試,測試任務一共有三項。

首先是資訊列舉,例如列舉出出生於某地、從事某行業的名人。

在這項任務中,研究人員一共測試了兩個資料集——簡單一些的Wikidata和從困難一些的Wiki-Category list(從維基百科中提取)。

結果發現,65B參數的Llama,在two-step模式的驗證鏈加持下,簡單問題的準確度從0.17提升到了0.36,增加了一倍還多,複雜問題準確度也接近翻番。

接下來是「閉域問答」題,研究人員從MultiSpanQA資料集中抽取多個不連續資訊進行挖空提問。

例如「誰在哪一年創立了世界上第一家出版社」(答案是Johannes Gutenberg, 1450)。

結果,Cove也為Llama帶來了20%左右的準確度提升。

第三項任務是“長段文本傳記生成”,問題就是“Tell me a bio of (人名)”,使用FactScore資料集進行評估。

結果在Factor+Reviese模式下,準確率不僅比無驗證鏈模式大幅提高,還超過了ChatGPT

對這項研究有興趣的朋友,可以到論文中了解更多細節。

論文地址:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)