GPT-4竟成Nature審稿人？史丹佛清華校友近5,000篇論文實測，超50%結果和人類評審一致

Question

**來源：**新智元**導讀：**史丹佛學者發現，GPT-4對於Nature、ICLR的論文所給予的審稿意見，竟然和人類審查者有超過50%的相似性。看來讓大模型來幫我們審論文，並不是天方夜譚啊。GPT-4，已經成功晉身審稿者！最近，來自史丹佛大學等機構的研究者把數千篇來自Nature、ICLR等的頂會文章丟給了GPT-4，讓它產生評審意見、修改建議，然後和人類審查者給予的意見相比較。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) 論文地址：結果，GPT-4不僅完美地勝任了這項工作，甚至比人類做得還好！![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) 在它給予的意見中，超50%和至少一名人類審稿者一致。且超過82.4%的作者表示，GPT-4給出的意見相當有幫助。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) 論文作者James Zou總結：我們仍然需要高品質的人工回饋，但LLM可以幫助作者在正式的同儕審查之前，改進自己的論文初稿。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **GPT-4給你的意見，可能比人類好**所以，要怎樣讓LLM給你審稿呢？非常簡單，只要從論文PDF中提取出文本，餵給GPT-4，它就立刻產生回饋了。具體來說，我們要對一個PDF提取、解析論文的標題、摘要、圖形、表格標題、主要文本。然後告訴GPT-4，你需要遵循業內頂尖的期刊會議的審查回饋形式，包括四個部分——成果是否重要、是否新穎，論文被接受的理由，論文被拒絕的理由，改進建議。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) 從下圖可以看到，GPT-4給了非常有建設性的意見，回饋包括四個部分。這篇論文有什麼缺陷？GPT-4一針見血地指出：雖然論文提及了模態差距現象，但並沒有提出縮小差距的方法，也沒有證明這樣做的好處。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) 研究者對3,096篇Nature系列論文和1,709篇ICLR論文的人類回饋和LLM回饋進行了比較。兩階段評論匹配管線會分別提取出LLM和人類回饋中的評論點，然後執行語義文本匹配，來匹配LLM和人類回饋之間的共同評論點。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) 下圖就是一個具體的兩階段評論匹配管線。對於每個配對評論，相似度評級都會給出理由。研究者將相似度閾值設為7，弱匹配的評論就會被過濾掉。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) 在Nature和ICLR兩個資料集中，論文和人類評論的平均token長度分別如下。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) 這項研究有美國110個AI機構和計算生物學機構的308名研究員參與。每位研究者都上傳了自己撰寫的論文，看了LLM的回饋，然後填寫了自己對於LLM回饋的評價和感受。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) 結果顯示，研究者普遍認為，跟人類審查的結果相比，LLM產生的回饋與之有很大的重疊，通常很有幫助。如果說有什麼缺點的話，就是在具體性上稍差一些。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) 的GPT-4意見與人類審查者意見重疊。在ICLR論文中，超過三分之一（39.23%)的GPT-4意見與人類審查者意見重疊。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **LLM與人類審稿人，偏重略有不同**以下是對同一篇ICLR論文的LLM評論和人類評論，可以看出，LLM的眼光很毒辣，評論很一針見血。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) 例如與先前研究的對比上，人類審查員表示：> 比較是有缺陷的。尤其是GNN方法的標籤一致性和中心一致性損失都沒有考慮到。更公平的比較應該是使用兩種損失都考慮到的GNN方法。而GPT-4的評價是：> 論文缺乏與現有方法的徹底的比較。雖然作者對於一些方法比較了基線，但仍需要更全面的比較。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) 在理論可靠性上，人類審稿者給了這樣的意見——> 恕我直言，理論的證明太瑣碎了。最終結論是如果相似度合適，預測的動作就是準確的。由於模型正在學習正確的相似度，也就相當於說模型h如果經過良好的訓練，輸出就是正確的。這是顯然的事。而GPT-4的意見是：> 作者應該提供更多理論分析，來比較訊息傳遞和一致性限制之間的聯繫，這樣能讓讀者更容易理解。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) 在研究的可複現性上，人類審查員希望論文能提供程式碼，好讓其他讀者也能復現實驗。GPT-4對此也給出了相同意見：「作者應該提供有關實驗設置的更多詳細信息，來確保研究的可複現性。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) 參與調查的使用者普遍認為，LLM的回饋可以幫助提高評審的準確性，減少人類評審員的工作量。而且大多數用戶打算再次使用LLM回饋系統。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) 有趣的是，相較於人類審稿人，LLM審稿員有自己獨有的特質。例如，它提及影響因子的頻率，是人類審查者的7.27倍。人類審查者會更可能要求補充額外的消融實驗ablation experiments，而LLM則會專注於要求在更多的資料集上進行實驗。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) 網友紛紛表示：這份工作很了不起！也有人說，其實我早就這麼乾了，我一直在用各種LLM幫我總結和改進論文。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) 有人問，所以GPT評審會不會為了迎合如今的同儕審查標準，讓自己有偏見呢？![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) 也有人提出，量化GPT和人類評審意見的重合，這個指標有用嗎？要知道，在理想情況下，審查者不應該有太多重合意見，選擇他們的原意是讓他們提供不同的觀點。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) 不過至少，這項研究讓我們知道，LLM確實可以用來當作改論文神器了。## **三步，讓LLM為你審稿**1. 建立一個PDF解析伺服器並在背景執行：*conda env create -f conda_environment.ymlconda activate ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # 確保它在後台運行*2. 建立並運行LLM回饋伺服器：*conda create -n llm python=3.10conda activate llmpip install -rrequirements.txtcat YOUR_OPENAI_API_KEY > key.txt # 將 YOUR_OPENAI_API_KEY 替換為以“sk-”密鑰開頭的 Opentxt API python main.py3. 開啟網頁瀏覽器並上傳你的論文：打開並上傳論文，就可以在大約120秒內得到LLM生成的回饋。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **作者介紹****Weixin Liang（梁偉欣）**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang是史丹佛大學電腦科學系的博士生，也是史丹佛人工智慧實驗室（SAIL）的成員，由James Zou教授的指導。在此之前，他在史丹佛大學獲得電子工程碩士學位，師從James Zou教授和Zhou Yu教授；在浙江大學獲得電腦科學學士學位，師從Kai Bu教授和Mingli Song教授。他曾在亞馬遜Alexa AI、蘋果和騰訊進行實習，並曾與Daniel Jurafsky教授、Daniel A. McFarland教授和Serena Yeung教授合作。**Yuhui Zhang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang是史丹佛大學電腦科學系的博士生，由Serena Yeung教授的指導。他的研究方向是建構多模態人工智慧系統和開發從多模態資訊中獲益的創意應用。在此之前，他在清華大學和史丹佛大學完成了本科和碩士學業，並與James Zou教授、Chris Manning教授、Jure Leskovec教授等出色的研究人員合作。**Hancheng Cao（曹瀚成）**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao是史丹佛大學電腦科學系六年級的博士生（輔修管理科學與工程專業），同時也是史丹佛大學NLP小組和人機互動小組的成員，由Dan McFarland教授和Michael Bernstein教授指導。他於2018年以優異成績獲得清華大學電子工程系學士學位。2015年起，他在清華大學擔任研究助理，導師為李勇教授和Vassilis Kostakos教授（墨爾本大學）。 2016年秋，他在馬裡蘭大學傑出大學教授Hanan Samet教授的指導下工作。 2017年夏，他作為交換生和研究助理在麻省理工學院媒體實驗室人類動力學小組工作，由Alex 'Sandy' Pentland教授Xiaowen Dong教授指導。他的研究興趣涉及計算社會科學、社會計算和數據科學。參考資料：