GPT-4 tornou-se um revisor da Nature? Ex-alunos de Stanford e Tsinghua testaram quase 5.000 artigos e mais de 50% dos resultados foram consistentes com revisores humanos

Question

**Fonte:**Xinzhiyuan**Introdução:** Os estudiosos de Stanford descobriram que as opiniões de revisão fornecidas pelo GPT-4 em artigos da Nature e do ICLR são mais de 50% semelhantes às dos revisores humanos. Parece que não é uma fantasia permitir que grandes modelos nos ajudem a revisar artigos.GPT-4 foi promovido com sucesso a revisor!Recentemente, pesquisadores da Universidade de Stanford e de outras instituições enviaram milhares de artigos de conferências importantes da Nature, ICLR, etc. para o GPT-4, permitindo gerar comentários e sugestões de revisão e depois compará-los com as opiniões dadas por revisores humanos. Comparar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) Endereço do papel:Como resultado, o GPT-4 não apenas fez o trabalho perfeitamente, mas também melhor que os humanos!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) Mais de 50% das opiniões emitidas concordam com pelo menos um revisor humano.E mais de 82,4% dos autores afirmaram que as opiniões dadas pelo GPT-4 foram bastante úteis.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) James Zou, o autor do artigo, concluiu: Ainda precisamos de feedback humano de alta qualidade, mas o LLM pode ajudar os autores a melhorar o primeiro rascunho do artigo antes da revisão formal por pares.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **As opiniões que o GPT-4 lhe dá podem ser melhores que as dos humanos**Então, como fazer com que o LLM revise seu manuscrito?É muito simples, basta extrair o texto do PDF em papel, alimentá-lo no GPT-4 e ele gerará feedback imediatamente.Especificamente, precisamos extrair e analisar o título, resumo, figuras, títulos de tabelas e texto principal do artigo de um PDF.Em seguida, diga ao GPT-4 que você precisa seguir o formulário de feedback de revisão das principais conferências de periódicos do setor, que inclui quatro partes - se os resultados são importantes e novos, os motivos para o artigo ser aceito, os motivos para o artigo ser rejeitado, e sugestões de melhoria.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) Como você pode ver na imagem abaixo, o GPT-4 deu opiniões muito construtivas e o feedback incluiu quatro partes.Quais são as falhas deste artigo?O GPT-4 apontou claramente: Embora o artigo mencionasse o fenômeno da lacuna modal, ele não propôs um método para reduzir a lacuna, nem comprovou os benefícios de fazê-lo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) Os pesquisadores compararam o feedback humano e o feedback do LLM em 3.096 artigos da série Nature e 1.709 artigos do ICLR.O pipeline de correspondência de comentários de dois estágios extrai pontos de comentários no LLM e no feedback humano, respectivamente, e então executa a correspondência de texto semântica para combinar pontos de comentários comuns entre o LLM e o feedback humano.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) A figura abaixo é um pipeline específico de correspondência de revisão em dois estágios.Para cada revisão pareada, a classificação de similaridade é dada com uma justificativa.Os pesquisadores definiram o limite de similaridade como 7, e os comentários com correspondência fraca serão filtrados.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) Nos dois conjuntos de dados da Nature e ICLR, os comprimentos médios de tokens de artigos e comentários humanos são os seguintes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) Este estudo envolveu 308 pesquisadores de 110 instituições de IA e instituições de biologia computacional nos Estados Unidos.Cada pesquisador carregou o artigo que escreveu, leu o feedback do LLM e, em seguida, preencheu sua própria avaliação e sentimentos sobre o feedback do LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) Os resultados mostram que os investigadores geralmente acreditam que o feedback gerado pelo LLM tem uma grande sobreposição com os resultados dos revisores humanos e é geralmente muito útil.Se houver alguma lacuna, é que é um pouco menos específico.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) dos comentários do GPT-4 se sobrepõem aos comentários dos revisores humanos.Nos artigos do ICLR, mais de um terço (39,23%) dos comentários do GPT-4 se sobrepõem aos comentários dos revisores humanos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **LLM e revisores humanos têm prioridades ligeiramente diferentes**A seguir estão os comentários do LLM e os comentários humanos no mesmo artigo do ICLR.Pode-se ver que o LLM tem uma visão muito cruel e os comentários são muito diretos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) Por exemplo, em comparação com pesquisas anteriores, os revisores humanos declararam:> A comparação é falha. Em particular, a consistência do rótulo e as perdas de consistência central do método GNN não são consideradas. Uma comparação mais justa seria usar um método GNN que levasse em conta ambas as perdas.A avaliação do GPT-4 é:> O artigo carece de uma comparação completa com os métodos existentes. Embora os autores tenham comparado as linhas de base para alguns métodos, é necessária uma comparação mais abrangente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) Em termos de confiabilidade teórica, os revisores humanos deram esta opinião——> IMHO, a prova da teoria é muito trivial. A conclusão final é que se a similaridade for apropriada, a ação prevista é precisa. Como o modelo está aprendendo a similaridade correta, equivale a dizer que se o modelo h estiver bem treinado, a saída estará correta. Isto é óbvio.A opinião do GPT-4 é:> O autor deve fornecer uma análise mais teórica para comparar a conexão entre a transferência de informações e as restrições de consistência, para que seja mais fácil para os leitores entenderem.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) Em termos de reprodutibilidade da pesquisa, os revisores humanos esperam que o artigo possa fornecer código para que outros leitores possam reproduzir o experimento.O GPT-4 também deu a mesma opinião sobre isso: “Os autores deveriam fornecer informações mais detalhadas sobre as configurações experimentais para garantir a reprodutibilidade do estudo”.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) Os usuários que participaram da pesquisa geralmente acreditam que o feedback do LLM pode ajudar a melhorar a precisão das revisões e reduzir a carga de trabalho dos revisores humanos. E a maioria dos usuários pretende usar o sistema de feedback LLM novamente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) Curiosamente, os revisores LLM têm características próprias em comparação com os revisores humanos.Por exemplo, menciona fatores de impacto 7,27 vezes mais frequentemente do que revisores humanos.Os revisores humanos estarão mais propensos a solicitar experimentos de ablação adicionais, enquanto o LLM se concentrará em solicitar experimentos em mais conjuntos de dados.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) Todos os internautas disseram: Esse trabalho é incrível!Algumas pessoas também dizem que, na verdade, já faço isso há muito tempo, tenho usado vários LLMs para me ajudar a resumir e melhorar meus artigos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) Alguém perguntou: os revisores da GPT serão tendenciosos para atender aos padrões atuais de revisão por pares?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) Algumas pessoas também levantaram a questão de quantificar a sobreposição entre GPT e opiniões de revisão humana. Este indicador é útil?Entenda que, idealmente, os revisores não devem ter muitas opiniões sobrepostas e são selecionados com a intenção de fornecer perspectivas diferentes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) Mas pelo menos esta pesquisa nos permite saber que o LLM pode de fato ser usado como uma ferramenta para revisão de artigos.## **Três etapas, deixe o LLM revisar o manuscrito para você**1. Crie um servidor de análise de PDF e execute-o em segundo plano:*conda env create -f conda_environment.ymlconda activate ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # Certifique-se de que esteja sendo executado em segundo plano*2. Crie e execute o servidor de feedback LLM:*conda create -n llm python=3.10conda activate llmpip install -r requisitos.txtcat YOUR_OPENAI_API_KEY > key.txt # Substitua YOUR_OPENAI_API_KEY pela sua chave de API OpenAI começando com "sk-"python main.py3. Abra um navegador da web e carregue seu artigo:Abra e carregue seu artigo e você receberá feedback gerado pelo LLM em cerca de 120 segundos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **Sobre o autor****Weixin Liang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang é estudante de doutorado no Departamento de Ciência da Computação da Universidade de Stanford e membro do Laboratório de Inteligência Artificial de Stanford (SAIL), sob a supervisão do Professor James Zou.Antes disso, ele recebeu o título de mestre em engenharia elétrica pela Universidade de Stanford, sob a tutela do professor James Zou e do professor Zhou Yu; e o bacharelado em ciência da computação pela Universidade de Zhejiang, sob a tutela do professor Kai Bu e do professor Mingli Song. .Ele estagiou na Amazon Alexa AI, Apple e Tencent e trabalhou com os professores Daniel Jurafsky, Daniel A. McFarland e Serena Yeung.**Yuhui Zhang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang é estudante de doutorado no Departamento de Ciência da Computação da Universidade de Stanford, sob supervisão da Professora Serena Yeung.Sua pesquisa se concentra na construção de sistemas multimodais de inteligência artificial e no desenvolvimento de aplicações criativas que se beneficiem de informações multimodais.Antes disso, ele completou seus estudos de graduação e mestrado na Universidade de Tsinghua e na Universidade de Stanford, e trabalhou com pesquisadores de destaque, como o Professor James Zou, o Professor Chris Manning e o Professor Jure Leskovec.**Hancheng Cao**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao é estudante de doutorado do sexto ano no Departamento de Ciência da Computação da Universidade de Stanford (com especialização em Ciências de Gestão e Engenharia). Ele também é membro do Grupo de PNL e do Grupo de Interação Humano-Computador da Universidade de Stanford, supervisionado pelos professores Dan. McFarland e Michael Bernstein.Ele recebeu seu diploma de bacharel em engenharia eletrônica pela Universidade Tsinghua em 2018 com honras.Desde 2015, trabalha como assistente de pesquisa na Universidade de Tsinghua, sob a supervisão do Professor Li Yong e do Professor Vassilis Kostakos (Universidade de Melbourne). No outono de 2016, ele trabalhou sob a orientação do Professor Hanan Samet, Distinguished University Professor da Universidade de Maryland. No verão de 2017, ele trabalhou como estudante de intercâmbio e assistente de pesquisa no MIT Media Lab Human Dynamics Group, orientado por Alex 'Sandy' Pentland Professor Xiaowen Dong.Seus interesses de pesquisa incluem ciências sociais computacionais, computação social e ciência de dados.Referências: