GPT-4 が Nature の査読者になりましたか?スタンフォード大学と清華大学の卒業生が約5,000の論文をテストし、結果の50％以上が人間の査読者と一致した

Question

**出典:**新志源**はじめに:** スタンフォード大学の学者らは、Nature および ICLR の論文に対して GPT-4 によって与えられた査読意見が人間の査読者と 50% 以上類似していることを発見しました。大型モデルに論文レビューを手伝ってもらうというのは空想ではないようです。GPT-4 がレビュー担当者に昇格しました。最近、スタンフォード大学やその他の機関の研究者が、Nature、ICLR などの数千のトップ会議論文を GPT-4 に送信し、GPT-4 でレビューコメントや改訂提案を生成し、人間の査読者によって与えられた意見と比較できるようになりました。比較する。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) 用紙のアドレス:その結果、GPT-4 はその仕事を完璧に遂行しただけでなく、人間よりも優れた仕事をしたのです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) 提供された意見の 50% 以上が、少なくとも 1 人の人間の査読者の意見に同意しています。また、著者の 82.4% 以上が、GPT-4 によって提供された意見が非常に役に立ったと回答しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) この論文の著者である James Zou 氏は次のように結論付けています。人間による質の高いフィードバックは依然として必要ですが、LLM は著者が正式な査読前に論文の初稿を改善するのに役立ちます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **GPT-4 が与える意見は人間よりも優れている可能性があります**では、LLM に原稿をレビューしてもらうにはどうすればよいでしょうか?それは非常に簡単で、紙の PDF からテキストを抽出して GPT-4 にフィードするだけで、すぐにフィードバックが生成されます。具体的には、PDF から論文のタイトル、要約、図、表のタイトル、本文を抽出して解析する必要があります。次に、業界のトップジャーナル会議のレビューフィードバックフォームに従う必要があることを GPT-4 に伝えます。このフォームには、結果が重要か新規かどうか、論文が受理された理由、論文が拒否された理由、の 4 つの部分が含まれています。そして改善のための提案。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) 下の写真からわかるように、GPT-4 からは非常に建設的な意見が寄せられ、フィードバックには 4 つの部分が含まれていました。この論文の欠陥は何ですか?GPT-4 は次のように指摘しました。論文ではモーダル ギャップ現象について言及しましたが、ギャップを削減する方法は提案されておらず、その利点も証明されていませんでした。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) 研究者らは、Nature シリーズの論文 3,096 件と ICLR の論文 1,709 件について、人間のフィードバックと LLM フィードバックを比較しました。2 段階のコメント マッチング パイプラインは、LLM と人間のフィードバックのコメント ポイントをそれぞれ抽出し、セマンティック テキスト マッチングを実行して、LLM と人間のフィードバックの間で共通のコメント ポイントを照合します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) 以下の図は、具体的な 2 段階のレビュー マッチング パイプラインです。ペアになったレビューごとに、類似性評価が根拠とともに与えられます。研究者らは類似性のしきい値を 7 に設定し、弱く一致するコメントはフィルターで除外されます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) Nature と ICLR の 2 つのデータセットにおける論文と人間のコメントの平均トークン長は次のとおりです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) この研究には、米国の 110 の AI 機関および計算生物学機関の 308 人の研究者が参加しました。各研究者は自分が書いた論文をアップロードし、LLM フィードバックを読み、LLM フィードバックに対する自分の評価や感想を記入しました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) この結果は、LLM によって生成されたフィードバックは人間のレビュー担当者の結果と大きく重複しており、通常は非常に役立つと研究者が一般に信じていることを示しています。欠点があるとすれば、それは少し具体性が低いということです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) GPT-4 コメントのうち、人間の査読者のコメントと重複しているコメントはあります。ICLR の論文では、GPT-4 コメントの 3 分の 1 以上 (39.23%) が人間の査読者のコメントと重複しています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **LLM と人間のレビュー担当者の優先順位は若干異なります**以下は、同じ ICLR 論文に対する LLM のコメントと人間のコメントですが、LLM が非常に悪質なビジョンを持っていることがわかり、コメントは非常に的を射ています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) たとえば、以前の研究と比較して、人間の査読者は次のように述べています。> 比較が間違っています。特に、GNN 法のラベル一貫性と中心一貫性の損失は考慮されていません。より公平な比較は、両方の損失を考慮した GNN メソッドを使用することです。GPT-4の評価は以下の通りです。> この論文には既存の手法との徹底的な比較が欠けています。著者らはいくつかの方法のベースラインを比較しましたが、より包括的な比較が必要です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) 理論的信頼性の観点から、人間の査読者は次のような意見を出しました—> 私見ですが、理論の証明はあまりにも簡単すぎます。最終的な結論は、類似性が適切であれば、予測されたアクションは正確であるということです。モデルは正しい類似度を学習しているため、モデル h が適切にトレーニングされていれば出力は正しいと言うのと同じです。これは明らかです。GPT-4 の意見は次のとおりです。> 著者は、読者が理解しやすいように、情報転送と一貫性制約の関係を比較するために、より理論的な分析を提供する必要があります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) 研究の再現性の観点から、人間の査読者は、他の読者が実験を再現できるように論文にコードが提供されることを望んでいます。GPT-4もこれに関して同様の意見を述べており、「研究の再現性を確保するために、著者らは実験設定に関するより詳細な情報を提供すべきである」としている。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) 調査に参加したユーザーは一般に、LLM フィードバックがレビューの精度を向上させ、人間のレビュー担当者の作業負荷を軽減するのに役立つと信じています。そして、ほとんどのユーザーは、LLM フィードバック システムを再度使用する予定です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) 興味深いことに、LLM レビュー担当者には人間のレビュー担当者と比較して独自の特徴があります。たとえば、人間の査読者よりも 7.27 倍の頻度でインパクトファクターについて言及しています。人間の査読者は追加のアブレーション実験を要求する可能性が高くなりますが、LLM はより多くのデータセットに対する実験の要求に重点を置きます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) ネットユーザーは口々に「この作品はすごい！」また、「実は私は長い間この作業を行っており、論文の要約と改善に役立つさまざまな LLM を使用してきました」という人もいます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) 誰かが尋ねましたが、GPT の査読者は今日の査読基準に応えるために偏ることになるのでしょうか?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) GPT と人間のレビュー意見との重複を定量化するという問題を提起する人もいますが、この指標は役に立ちますか?理想的には、査読者は重複する意見が多すぎてはならず、異なる視点を提供するという意図で査読者が選ばれていることを理解してください。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) しかし少なくとも、この研究により、LLM が実際に論文を改訂するためのツールとして使用できることがわかりました。## **3 つのステップ。LLM が原稿をレビューします**1. PDF 解析サーバーを作成し、バックグラウンドで実行します。*conda env create -f conda_environment.ymlconda activate ScienceBeampython -msciencebeam_parser.service.server *--port=8080 # これがバックグラウンドで実行されていることを確認してください*2. LLM フィードバック サーバーを作成して実行します。*conda create -n llm python=3.10conda activate llmpip install -rrequirements.txtcat YOUR_OPENAI_API_KEY > key.txt # YOUR_OPENAI_API_KEY を「sk-」で始まる OpenAI API キーに置き換えます python main.py3. Web ブラウザを開いて論文をアップロードします。論文を開いてアップロードすると、約 120 秒で LLM によって生成されたフィードバックが得られます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ＃＃ **著者について****梁偉信**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang は、スタンフォード大学コンピューター サイエンス学部の博士課程の学生であり、James Zou 教授の監督下にあるスタンフォード人工知能研究所 (SAIL) のメンバーです。それ以前は、スタンフォード大学で James Zou 教授と Zhou Yu 教授の指導の下で電気工学の修士号を取得し、浙江大学で Kai Bu 教授と Mingli Song 教授の指導の下でコンピュータ サイエンスの学士号を取得しました。 。彼は Amazon Alexa AI、Apple、Tencent でインターンをし、Daniel Jurafsky 教授、Daniel A. McFarland 教授、Serena Yeung 教授と協力してきました。**張裕輝**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang は、Serena Yeung 教授の指導の下、スタンフォード大学コンピューター サイエンス学部の博士課程の学生です。彼の研究は、マルチモーダルな人工知能システムの構築と、マルチモーダルな情報から恩恵を受ける創造的なアプリケーションの開発に焦点を当てています。その前に、彼は清華大学とスタンフォード大学で学部と修士課程を修了し、ジェームズ・ゾウ教授、クリス・マニング教授、ジュレ・レスコベック教授などの優れた研究者と一緒に研究しました。**曹漢城**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao は、スタンフォード大学コンピュータ サイエンス学部の博士課程 6 年生であり (経営科学と工学を副専攻)、ダン教授が監督するスタンフォード大学の NLP グループとヒューマン コンピュータ インタラクション グループのメンバーでもあります。マクファーランドとマイケル・バーンスタイン。彼は 2018 年に清華大学で電子工学の学士号を優秀な成績で取得しました。2015 年からは、リー・ヨン教授とヴァシリス・コスタコス教授（メルボルン大学）の指導のもと、清華大学で研究助手として働いています。 2016 年の秋、彼はメリーランド大学の特別教授であるハナン・サメット教授の指導の下で働きました。 2017 年の夏、彼は MIT メディア ラボのヒューマン ダイナミクス グループで交換留学生および研究助手として働き、アレックス 'サンディ' ペントランド教授シャオウェン ドンの指導を受けました。彼の研究対象には、計算社会科学、ソーシャル コンピューティング、データ サイエンスが含まれます。参考文献: