📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
別用GPT-4直出文字摘要! MIT、哥大等發布全新「密度鏈」提示:實體密度是摘要品質的關鍵
原文來源:新智元
ChatGPT發布後,文本生成技術得到飛速發展,大量NLP任務都面臨被完全攻克的窘境,尤其是對於缺乏標準答案的「文本摘要」任務來說更是如此。
但如何在摘要中包含「合理的資訊量」仍然十分困難:一個好的摘要應該是詳細的,以實體為中心的,而非實體密集且難以理解。
為了更好地理解資訊量和可理解性之間的權衡,麻省理工學院、哥倫比亞大學等機構的研究人員提出了一個全新的「密度鏈」(Chain of Dense)提示,可以在不增加摘要文本長度的前提下,GPT-4產生的實體稀疏(entity-sparse)摘要進行迭代優化,逐步加入缺少的重要實體。
開源資料:
從實驗結果來看,用CoD產生的摘要比由普通提示產生的GPT-4摘要更抽象(abstractive),表現出更多的融合(fusion)以及更少的lead bias
研究人員開源了500篇標註的CoD摘要,以及5000篇無標註的摘要資料。
迭代改進文字摘要
提示()
任務目標是使用GPT-4產生一組具有「不同資訊密度等級」的摘要,同時也要控製文字的長度。
研究人員提出密度鏈(CoD,Chain of Density)提示來產生一個初始摘要,並逐漸使實體密度越來越大。
具体来说,在固定的迭代轮数下,识别出源文本中一组独特的、显著的实体,并融合到先前的摘要中而不增加文本长度。
研究人員沒有規定實體的類型,而是簡單地將缺失實體(Missing Entity)定義為:
**相關(Relevant):**與主體故事相關;
**具體(Specific):**描述性但簡潔扼要(5個字或以下);
**新穎(Novel):**沒有出現在先前的摘要中;
**忠實(Faithful):**存在於原文中;
**任何地方(Anywhere):**可以出現在文章中的任意位置。
在資料選擇上,研究人員從CNN/DailyMail摘要測試集中隨機抽取100篇文章來產生CoD摘要。
然後將CoD摘要統計數據與人工編寫的條目(bullet-point)風格的參考摘要以及GPT-4在常規提示下生成的摘要進行對比,其中提示詞為“寫一篇非常簡短的文章摘要,不超過70個字」(Write a VERY short summary of the Article. Do not exceed 70 words)。
預期token長度設定為與CoD摘要的token長度相符。
統計結果
直接統計指標
使用NLTK計算token數量,使用Spacy2測量獨特的實體數量,並計算實體密度比率。
實體密度也隨之上升,最開始是0.089,低於人類和GPT-4的結果(分別為0.151和0.122),而在5步操作後密度上升到0.167。
間接統計指標
使用抽取密度(extractive density,即抽取片段的平均長度的平方)來衡量文本的抽象性(abstractiveness),預期文本應該隨CoD的迭代進展而增加。
使用「摘要句子與來源文字對齊數量」作為概念融合(fusion)指標,其中對齊演算法使用「相對ROUGE增益」,將來源句子與目標句子對齊,直到額外添加的句子不會繼續提升相對ROUGE增益為止,預期融合應該逐漸增加。
使用「摘要內容在來源文字中的位置」作為內容分佈(Content Distribution)指標,具體測量方法為所有對齊來源句子的平均排序,預期CoD摘要最初表現出明顯的Lead Bias,後續逐漸開始從文章的中間和結尾部分引入實體。
並且,所有CoD摘要都比手動編寫和基線模型生成的摘要更加抽象。
實驗結果
為了更好地理解CoD摘要的權衡,我們用GPT-4進行了一項基於偏好的人體研究和一項基於評級的評估。
人類偏好評估
研究者主要以評估緻密化(densification)對人類整體品質評估的影響。
具體來說,輸入100篇文章,可以得到「5個步驟*100=總計500個摘要」,向四位標註人員隨機展示摘要結果,並根據原文忠實度(Essence)、清晰性(Clarity)、準確性(Accuracy)、目的性(Purpose)、簡潔性(Concise)和風格(Style)對摘要進行評估。
最近一些工作已經證明了GPT-4的評估與人類評估結果之間的相關性非常高,甚至有可能在部分標註任務上比眾包工作者的表現還要好。
作為人工評估的補充,研究人員提出使用GPT-4從5個方面對CoD摘要(1-5)進行評級:資訊量(Informative)、品質(Quality)、連貫性(Coherence)、歸因(Attributable)和整體性(Overall)。
使用的指令模版為:
其中各指標的定義為:
**資訊量:**資訊量豐富的摘要可以抓住文章中的重要訊息,並準確簡潔地呈現出來。 (An informative summary captures the important information in the article and presents it accurately and concisely.)
**品質:**高品質的摘要是可理解的。 (A high quality summary is comprehensible and understandable.)
**連貫性:**連貫一致的摘要結構嚴謹,組織有序。 (A coherent summary is well-structured and well-organized.)
**歸因:**摘要中的所有資訊是否完全歸因文章? (Is all the information in the
摘要完全歸屬於文章?)
**整體偏好:**一個好的摘要應該以簡潔、邏輯和連貫的方式傳達文章的主要觀點。 (A good summary should convey the main ideas in the Article in a concise, logical, and coherent fashion.)
定性分析
摘要的連貫性/可讀性和資訊量之間在迭代的過程中需要權衡。
平均而言,中間步驟的CoD摘要可以更好地實現平衡,但如何精確定義和量化這種平衡目前還沒有工作。
參考資料: