別用GPT-4直出文字摘要！ MIT、哥大等發布全新「密度鏈」提示：實體密度是摘要品質的關鍵

2023-10-01 09:13:30

原文來源：新智元

圖片來源：由無界AI生成

ChatGPT發布後，文本生成技術得到飛速發展，大量NLP任務都面臨被完全攻克的窘境，尤其是對於缺乏標準答案的「文本摘要」任務來說更是如此。

但如何在摘要中包含「合理的資訊量」仍然十分困難：一個好的摘要應該是詳細的，以實體為中心的，而非實體密集且難以理解。

為了更好地理解資訊量和可理解性之間的權衡，麻省理工學院、哥倫比亞大學等機構的研究人員提出了一個全新的「密度鏈」（Chain of Dense）提示，可以在不增加摘要文本長度的前提下，GPT-4產生的實體稀疏（entity-sparse）摘要進行迭代優化，逐步加入缺少的重要實體。

論文連結：

開源資料：

從實驗結果來看，用CoD產生的摘要比由普通提示產生的GPT-4摘要更抽象（abstractive），表現出更多的融合（fusion）以及更少的lead bias

在對100篇CNN DailyMail文章進行人類偏好研究後可以發現，人類也更傾向於選擇實體更密集的摘要結果，與人工編寫摘要的實體密度相近。

研究人員開源了500篇標註的CoD摘要，以及5000篇無標註的摘要資料。

迭代改進文字摘要

提示（）

任務目標是使用GPT-4產生一組具有「不同資訊密度等級」的摘要，同時也要控製文字的長度。

研究人員提出密度鏈（CoD，Chain of Density）提示來產生一個初始摘要，並逐漸使實體密度越來越大。

具体来说，在固定的迭代轮数下，识别出源文本中一组独特的、显著的实体，并融合到先前的摘要中而不增加文本长度。

首次產生的摘要是實體稀疏的，只關注1-3個初始實體；為了保持相同的文本長度，同時增加涵蓋的實體數量，需要明確鼓勵抽象（abstraction）、融合（fusion）和壓縮（compression），而不是從先前的摘要中刪除有意義的內容。

研究人員沒有規定實體的類型，而是簡單地將缺失實體（Missing Entity）定義為：

**相關（Relevant）：**與主體故事相關；

**具體（Specific）：**描述性但簡潔扼要（5個字或以下）；

**新穎（Novel）：**沒有出現在先前的摘要中；

**忠實（Faithful）：**存在於原文中；

**任何地方（Anywhere）：**可以出現在文章中的任意位置。

在資料選擇上，研究人員從CNN/DailyMail摘要測試集中隨機抽取100篇文章來產生CoD摘要。

然後將CoD摘要統計數據與人工編寫的條目（bullet-point）風格的參考摘要以及GPT-4在常規提示下生成的摘要進行對比，其中提示詞為“寫一篇非常簡短的文章摘要，不超過70個字」（Write a VERY short summary of the Article. Do not exceed 70 words）。

預期token長度設定為與CoD摘要的token長度相符。

統計結果

直接統計指標

使用NLTK計算token數量，使用Spacy2測量獨特的實體數量，並計算實體密度比率。

CoD提示很大程度上限制了生成摘要的預期token數量，可以看到，從第二步開始從冗長的初始摘要中逐漸刪除不必要的單詞，使得文本長度平均減少5個token（72到67）。

實體密度也隨之上升，最開始是0.089，低於人類和GPT-4的結果（分別為0.151和0.122），而在5步操作後密度上升到0.167。

間接統計指標

使用抽取密度（extractive density，即抽取片段的平均長度的平方）來衡量文本的抽象性（abstractiveness），預期文本應該隨CoD的迭代進展而增加。

使用「摘要句子與來源文字對齊數量」作為概念融合（fusion）指標，其中對齊演算法使用「相對ROUGE增益」，將來源句子與目標句子對齊，直到額外添加的句子不會繼續提升相對ROUGE增益為止，預期融合應該逐漸增加。

使用「摘要內容在來源文字中的位置」作為內容分佈（Content Distribution）指標，具體測量方法為所有對齊來源句子的平均排序，預期CoD摘要最初表現出明顯的Lead Bias，後續逐漸開始從文章的中間和結尾部分引入實體。

統計結果也驗證了預期結果的正確性：抽象性隨著重寫過程逐漸增加、融合率上升、摘要開始納入文章中間和結尾的內容。

並且，所有CoD摘要都比手動編寫和基線模型生成的摘要更加抽象。

實驗結果

為了更好地理解CoD摘要的權衡，我們用GPT-4進行了一項基於偏好的人體研究和一項基於評級的評估。

人類偏好評估

研究者主要以評估緻密化（densification）對人類整體品質評估的影響。

具體來說，輸入100篇文章，可以得到「5個步驟*100=總計500個摘要」，向四位標註人員隨機展示摘要結果，並根據原文忠實度（Essence）、清晰性（Clarity）、準確性（Accuracy）、目的性（Purpose）、簡潔性（Concise）和風格（Style）對摘要進行評估。

从票选结果来看，第二个CoD步骤获得了最高评价，再结合之前平均密度的实验结果，可以大体推断出人类更倾向于选择实体密度约为15%的文本摘要，显著高于GPT-4生成的摘要（实体密度0.122）。

自動評估指標

最近一些工作已經證明了GPT-4的評估與人類評估結果之間的相關性非常高，甚至有可能在部分標註任務上比眾包工作者的表現還要好。

作為人工評估的補充，研究人員提出使用GPT-4從5個方面對CoD摘要（1-5）進行評級：資訊量（Informative）、品質（Quality）、連貫性（Coherence）、歸因（Attributable）和整體性（Overall）。

使用的指令模版為：

文章：文章總結：總結請根據維度對摘要進行評分（1=最差，5=最佳）。定義

其中各指標的定義為：

**資訊量：**資訊量豐富的摘要可以抓住文章中的重要訊息，並準確簡潔地呈現出來。（An informative summary captures the important information in the article and presents it accurately and concisely.）

**品質：**高品質的摘要是可理解的。（A high quality summary is comprehensible and understandable.）

**連貫性：**連貫一致的摘要結構嚴謹，組織有序。（A coherent summary is well-structured and well-organized.）

**歸因：**摘要中的所有資訊是否完全歸因文章？（Is all the information in the

摘要完全歸屬於文章？）

**整體偏好：**一個好的摘要應該以簡潔、邏輯和連貫的方式傳達文章的主要觀點。（A good summary should convey the main ideas in the Article in a concise, logical, and coherent fashion.）

實驗結果表明，緻密化與資訊量相關，但得分在第4步時達到峰值（4.74）；品質和連貫性的下降更快；所有摘要均被視為歸因自源文章；總體得分傾向於更密集且更翔實的總結，第4步得分最高。平均而言，第一個和最後一個CoD步驟最不受青睞，而中間三個步驟很接近（分別為4.78、4.77和4.76）。

定性分析

摘要的連貫性/可讀性和資訊量之間在迭代的過程中需要權衡。

上面例子中展示了兩個CoD步驟，分別包含更細節的內容和更粗略的內容。

平均而言，中間步驟的CoD摘要可以更好地實現平衡，但如何精確定義和量化這種平衡目前還沒有工作。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
分享

留言

0/400

暫無留言

話題
1/3
1Gate Launchpad IKA上線
49889 熱度
2以太坊重返3800
6941 熱度
3美歐達成關稅協議
5555 熱度
4加密總市值破4萬億美元
1042 熱度
5穩定幣監管動向
658 熱度