別用GPT-4直出文字摘要! MIT、哥大等發布全新「密度鏈」提示:實體密度是摘要品質的關鍵

原文來源:新智元

圖片來源:由無界AI生成

ChatGPT發布後,文本生成技術得到飛速發展,大量NLP任務都面臨被完全攻克的窘境,尤其是對於缺乏標準答案的「文本摘要」任務來說更是如此。

但如何在摘要中包含「合理的資訊量」仍然十分困難:一個好的摘要應該是詳細的,以實體為中心的,而非實體密集且難以理解。

為了更好地理解資訊量和可理解性之間的權衡,麻省理工學院、哥倫比亞大學等機構的研究人員提出了一個全新的「密度鏈」(Chain of Dense)提示,可以在不增加摘要文本長度的前提下,GPT-4產生的實體稀疏(entity-sparse)摘要進行迭代優化,逐步加入缺少的重要實體。

論文連結:

開源資料:

從實驗結果來看,用CoD產生的摘要比由普通提示產生的GPT-4摘要更抽象(abstractive),表現出更多的融合(fusion)以及更少的lead bias

在對100篇CNN DailyMail文章進行人類偏好研究後可以發現,人類也更傾向於選擇實體更密集的摘要結果,與人工編寫摘要的實體密度相近。

研究人員開源了500篇標註的CoD摘要,以及5000篇無標註的摘要資料。

迭代改進文字摘要

提示()

任務目標是使用GPT-4產生一組具有「不同資訊密度等級」的摘要,同時也要控製文字的長度。

研究人員提出密度鏈(CoD,Chain of Density)提示來產生一個初始摘要,並逐漸使實體密度越來越大。

具体来说,在固定的迭代轮数下,识别出源文本中一组独特的、显著的实体,并融合到先前的摘要中而不增加文本长度。

首次產生的摘要是實體稀疏的,只關注1-3個初始實體;為了保持相同的文本長度,同時增加涵蓋的實體數量,需要明確鼓勵抽象(abstraction)、融合(fusion)和壓縮(compression),而不是從先前的摘要中刪除有意義的內容。

研究人員沒有規定實體的類型,而是簡單地將缺失實體(Missing Entity)定義為:

**相關(Relevant):**與主體故事相關;

**具體(Specific):**描述性但簡潔扼要(5個字或以下);

**新穎(Novel):**沒有出現在先前的摘要中;

**忠實(Faithful):**存在於原文中;

**任何地方(Anywhere):**可以出現在文章中的任意位置。

在資料選擇上,研究人員從CNN/DailyMail摘要測試集中隨機抽取100篇文章來產生CoD摘要。

然後將CoD摘要統計數據與人工編寫的條目(bullet-point)風格的參考摘要以及GPT-4在常規提示下生成的摘要進行對比,其中提示詞為“寫一篇非常簡短的文章摘要,不超過70個字」(Write a VERY short summary of the Article. Do not exceed 70 words)。

預期token長度設定為與CoD摘要的token長度相符。

統計結果

直接統計指標

使用NLTK計算token數量,使用Spacy2測量獨特的實體數量,並計算實體密度比率。

CoD提示很大程度上限制了生成摘要的預期token數量,可以看到,從第二步開始從冗長的初始摘要中逐漸刪除不必要的單詞,使得文本長度平均減少5個token(72到67) 。

實體密度也隨之上升,最開始是0.089,低於人類和GPT-4的結果(分別為0.151和0.122),而在5步操作後密度上升到0.167。

間接統計指標

使用抽取密度(extractive density,即抽取片段的平均長度的平方)來衡量文本的抽象性(abstractiveness),預期文本應該隨CoD的迭代進展而增加。

使用「摘要句子與來源文字對齊數量」作為概念融合(fusion)指標,其中對齊演算法使用「相對ROUGE增益」,將來源句子與目標句子對齊,直到額外添加的句子不會繼續提升相對ROUGE增益為止,預期融合應該逐漸增加。

使用「摘要內容在來源文字中的位置」作為內容分佈(Content Distribution)指標,具體測量方法為所有對齊來源句子的平均排序,預期CoD摘要最初表現出明顯的Lead Bias,後續逐漸開始從文章的中間和結尾部分引入實體。

統計結果也驗證了預期結果的正確性:抽象性隨著重寫過程逐漸增加、融合率上升、摘要開始納入文章中間和結尾的內容。

並且,所有CoD摘要都比手動編寫和基線模型生成的摘要更加抽象。

實驗結果

為了更好地理解CoD摘要的權衡,我們用GPT-4進行了一項基於偏好的人體研究和一項基於評級的評估。

人類偏好評估

研究者主要以評估緻密化(densification)對人類整體品質評估的影響。

具體來說,輸入100篇文章,可以得到「5個步驟*100=總計500個摘要」,向四位標註人員隨機展示摘要結果,並根據原文忠實度(Essence)、清晰性(Clarity)、準確性(Accuracy)、目的性(Purpose)、簡潔性(Concise)和風格(Style)對摘要進行評估。

从票选结果来看,第二个CoD步骤获得了最高评价,再结合之前平均密度的实验结果,可以大体推断出人类更倾向于选择实体密度约为15%的文本摘要,显著高于GPT-4生成的摘要(实体密度0.122)。

自動評估指標

最近一些工作已經證明了GPT-4的評估與人類評估結果之間的相關性非常高,甚至有可能在部分標註任務上比眾包工作者的表現還要好。

作為人工評估的補充,研究人員提出使用GPT-4從5個方面對CoD摘要(1-5)進行評級:資訊量(Informative)、品質(Quality)、連貫性(Coherence)、歸因(Attributable)和整體性(Overall)。

使用的指令模版為:

文章:文章 總結:總結 請根據維度對摘要進行評分(1=最差,5=最佳)。 定義

其中各指標的定義為:

**資訊量:**資訊量豐富的摘要可以抓住文章中的重要訊息,並準確簡潔地呈現出來。 (An informative summary captures the important information in the article and presents it accurately and concisely.)

**品質:**高品質的摘要是可理解的。 (A high quality summary is comprehensible and understandable.)

**連貫性:**連貫一致的摘要結構嚴謹,組織有序。 (A coherent summary is well-structured and well-organized.)

**歸因:**摘要中的所有資訊是否完全歸因文章? (Is all the information in the

摘要完全歸屬於文章?)

**整體偏好:**一個好的摘要應該以簡潔、邏輯和連貫的方式傳達文章的主要觀點。 (A good summary should convey the main ideas in the Article in a concise, logical, and coherent fashion.)

實驗結果表明,緻密化與資訊量相關,但得分在第4步時達到峰值(4.74);品質和連貫性的下降更快;所有摘要均被視為歸因自源文章;總體得分傾向於更密集且更翔實的總結,第4步得分最高。平均而言,第一個和最後一個CoD步驟最不受青睞,而中間三個步驟很接近(分別為4.78、4.77和4.76)。

定性分析

摘要的連貫性/可讀性和資訊量之間在迭代的過程中需要權衡。

上面例子中展示了兩個CoD步驟,分別包含更細節的內容和更粗略的內容。

平均而言,中間步驟的CoD摘要可以更好地實現平衡,但如何精確定義和量化這種平衡目前還沒有工作。

參考資料:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)