GPT-4 est devenu un critique de Nature ? Les anciens élèves de Stanford et de Tsinghua ont testé près de 5 000 articles, et plus de 50 % des résultats étaient conformes à ceux des évaluateurs humains.

Question

**Source :**Xinzhiyuan**Introduction :** Des chercheurs de Stanford ont découvert que les avis donnés par GPT-4 sur les articles Nature et ICLR sont similaires à plus de 50 % à ceux des évaluateurs humains. Il semble que ce ne soit pas un fantasme de laisser de grands modèles nous aider à réviser des articles.GPT-4 a été promu avec succès au rang de réviseur !Récemment, des chercheurs de l'Université de Stanford et d'autres institutions ont envoyé des milliers d'articles de conférences de premier plan provenant de Nature, ICLR, etc. à GPT-4, lui permettant de générer des commentaires de révision et des suggestions de révision, puis de les comparer avec les opinions données par des évaluateurs humains. Comparer.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) Adresse papier :En conséquence, GPT-4 a non seulement fait parfaitement le travail, mais il l’a même fait mieux que les humains !![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) Plus de 50 % des avis qu’il donne sont en accord avec au moins un évaluateur humain.Et plus de 82,4 % des auteurs ont déclaré que les avis donnés par GPT-4 étaient très utiles.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) James Zou, l'auteur de l'article, a conclu : Nous avons toujours besoin d'un retour humain de haute qualité, mais LLM peut aider les auteurs à améliorer leur première version de l'article avant l'examen formel par les pairs.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **Les opinions que GPT-4 vous donne sont peut-être meilleures que celles des humains**Alors, comment demander à LLM de réviser votre manuscrit ?C'est très simple, il suffit d'extraire le texte du PDF papier, de le transmettre à GPT-4 et il générera immédiatement des commentaires.Plus précisément, nous devons extraire et analyser le titre, le résumé, les figures, les titres des tableaux et le texte principal de l'article à partir d'un PDF.Dites ensuite à GPT-4 que vous devez suivre le formulaire de commentaires des principales conférences de revues de l'industrie, qui comprend quatre parties : si les résultats sont importants et nouveaux, les raisons pour lesquelles l'article a été accepté, les raisons pour lesquelles l'article a été rejeté, et des suggestions d'amélioration.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) Comme vous pouvez le voir sur l'image ci-dessous, GPT-4 a donné des avis très constructifs et les commentaires comprenaient quatre parties.Quels sont les défauts de ce document ?GPT-4 a clairement souligné : Bien que le document mentionne le phénomène de l'écart modal, il ne propose pas de méthode pour réduire l'écart, ni n'en prouve les avantages.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) Les chercheurs ont comparé les commentaires humains et les commentaires LLM sur 3 096 articles de la série Nature et 1 709 articles ICLR.Le pipeline de correspondance de commentaires en deux étapes extrait respectivement les points de commentaire dans LLM et les commentaires humains, puis effectue une correspondance de texte sémantique pour faire correspondre les points de commentaires courants entre LLM et les commentaires humains.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) La figure ci-dessous représente un pipeline de correspondance d'examen spécifique en deux étapes.Pour chaque évaluation jumelée, la note de similarité est donnée avec une justification.Les chercheurs ont fixé le seuil de similarité à 7 et les commentaires faiblement correspondants seront filtrés.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) Dans les deux ensembles de données de Nature et ICLR, la longueur moyenne des articles et des commentaires humains est la suivante.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) Cette étude a impliqué 308 chercheurs de 110 institutions d’IA et institutions de biologie computationnelle aux États-Unis.Chaque chercheur a téléchargé l'article qu'il a rédigé, lu les commentaires du LLM, puis a rempli sa propre évaluation et ses sentiments sur les commentaires du LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) Les résultats montrent que les chercheurs pensent généralement que les commentaires générés par LLM recoupent largement les résultats des évaluateurs humains et sont généralement très utiles.S’il y a un défaut, c’est qu’il est légèrement moins précis.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) des commentaires GPT-4 chevauchent les commentaires des évaluateurs humains.Dans les articles ICLR, plus d'un tiers (39,23 %) des commentaires GPT-4 chevauchent les commentaires des évaluateurs humains.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **Les évaluateurs LLM et humains ont des priorités légèrement différentes**Ce qui suit sont des commentaires de LLM et des commentaires humains sur le même article ICLR. On peut voir que LLM a une vision très vicieuse et les commentaires sont très pertinents.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) Par exemple, en comparaison avec des recherches antérieures, les évaluateurs humains ont déclaré :> La comparaison est erronée. En particulier, les pertes de cohérence des étiquettes et de cohérence centrale de la méthode GNN ne sont pas prises en compte. Une comparaison plus juste consisterait à utiliser une méthode GNN qui prend en compte les deux pertes.L'évaluation de GPT-4 est la suivante :> Le document manque d'une comparaison approfondie avec les méthodes existantes. Bien que les auteurs aient comparé les références de certaines méthodes, une comparaison plus complète est nécessaire.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) En termes de fiabilité théorique, les évaluateurs humains ont donné cette opinion——> À mon humble avis, la preuve de la théorie est trop triviale. La conclusion finale est que si la similarité est appropriée, l’action prédite est exacte. Puisque le modèle apprend la similarité correcte, cela revient à dire que si le modèle h est bien entraîné, le résultat sera correct. C'est évident.L'avis du GPT-4 est le suivant :> L'auteur devrait fournir une analyse plus théorique pour comparer le lien entre le transfert d'informations et les contraintes de cohérence, afin qu'il soit plus facile à comprendre pour les lecteurs.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) En termes de reproductibilité de la recherche, les évaluateurs humains espèrent que l'article pourra fournir un code permettant à d'autres lecteurs de reproduire l'expérience.GPT-4 a également donné le même avis à ce sujet : "Les auteurs devraient fournir des informations plus détaillées sur les paramètres expérimentaux pour garantir la reproductibilité de l'étude."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) Les utilisateurs qui ont participé à l'enquête pensent généralement que les commentaires LLM peuvent contribuer à améliorer l'exactitude des avis et à réduire la charge de travail des évaluateurs humains. Et la plupart des utilisateurs ont l’intention d’utiliser à nouveau le système de feedback LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) Il est intéressant de noter que les évaluateurs LLM ont leurs propres caractéristiques uniques par rapport aux évaluateurs humains.Par exemple, il mentionne les facteurs d’impact 7,27 fois plus fréquemment que les évaluateurs humains.Les évaluateurs humains seront plus susceptibles de demander des expériences d’ablation supplémentaires, tandis que LLM se concentrera sur la demande d’expériences sur davantage d’ensembles de données.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) Les internautes ont tous dit : Ce travail est incroyable !Certains disent aussi qu'en fait, je fais cela depuis longtemps et que j'utilise divers LLM pour m'aider à résumer et à améliorer mes travaux.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) Quelqu'un a demandé : les évaluateurs GPT seront-ils partiaux afin de répondre aux normes d'évaluation par les pairs actuelles ?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) Certains ont également soulevé la question de la quantification du chevauchement entre les avis GPT et les avis humains : cet indicateur est-il utile ?Comprenez que, idéalement, les évaluateurs ne devraient pas avoir trop d’opinions qui se chevauchent et qu’ils sont sélectionnés dans le but de fournir des perspectives différentes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) Mais au moins, cette recherche nous permet de savoir que le LLM peut effectivement être utilisé comme outil de révision d'articles.## **Trois étapes, laissez LLM réviser le manuscrit pour vous**1. Créez un serveur d'analyse PDF et exécutez-le en arrière-plan :*conda env create -f conda_environment.ymlconda activate ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # Assurez-vous que cela s'exécute en arrière-plan*2. Créez et exécutez le serveur de commentaires LLM :*conda create -n llm python=3.10conda activate llmpip install -r Requirements.txtcat YOUR_OPENAI_API_KEY > key.txt # Remplacez YOUR_OPENAI_API_KEY par votre clé API OpenAI commençant par "sk-" python main.py3. Ouvrez un navigateur Web et téléchargez votre article :Ouvrez et téléchargez votre article et vous obtiendrez des commentaires générés par LLM en 120 secondes environ.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **A propos de l'auteur****Weixin Liang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang est doctorant au Département d'informatique de l'Université de Stanford et membre du Stanford Artificial Intelligence Laboratory (SAIL), sous la direction du professeur James Zou.Avant cela, il a obtenu une maîtrise en génie électrique de l'Université de Stanford, sous la tutelle des professeurs James Zou et Zhou Yu, et une licence en informatique de l'Université du Zhejiang, sous la tutelle des professeurs Kai Bu et Mingli Song. .Il a effectué des stages chez Amazon Alexa AI, Apple et Tencent, et a travaillé avec les professeurs Daniel Jurafsky, Daniel A. McFarland et Serena Yeung.**Yuhui Zhang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang est doctorant au Département d'informatique de l'Université de Stanford, sous la direction du professeur Serena Yeung.Ses recherches portent sur la construction de systèmes d’intelligence artificielle multimodaux et le développement d’applications créatives bénéficiant de l’information multimodale.Avant cela, il a effectué ses études de premier cycle et de maîtrise à l'Université Tsinghua et à l'Université Stanford et a travaillé avec des chercheurs exceptionnels tels que le professeur James Zou, le professeur Chris Manning et le professeur Jure Leskovec.**Hancheng Cao**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao est doctorant en sixième année au Département d'informatique de l'Université de Stanford (mineure en sciences de gestion et ingénierie). Il est également membre du groupe NLP et du groupe d'interaction homme-machine de l'université de Stanford, supervisés par les professeurs Dan. McFarland et Michael Bernstein.Il a obtenu son baccalauréat en génie électronique de l'Université Tsinghua en 2018 avec mention.Depuis 2015, il travaille comme assistant de recherche à l'Université Tsinghua, sous la direction du professeur Li Yong et du professeur Vassilis Kostakos (Université de Melbourne). À l’automne 2016, il a travaillé sous la direction du professeur Hanan Samet, professeur émérite à l’Université du Maryland. À l'été 2017, il a travaillé comme étudiant d'échange et assistant de recherche au sein du groupe de dynamique humaine du MIT Media Lab, encadré par le professeur Alex « Sandy » Pentland, Xiaowen Dong.Ses intérêts de recherche incluent les sciences sociales computationnelles, l’informatique sociale et la science des données.Les références: