GPT-4 tornou-se um revisor da Nature? Ex-alunos de Stanford e Tsinghua testaram quase 5.000 artigos e mais de 50% dos resultados foram consistentes com revisores humanos

**Fonte:**Xinzhiyuan

Introdução: Os estudiosos de Stanford descobriram que as opiniões de revisão fornecidas pelo GPT-4 em artigos da Nature e do ICLR são mais de 50% semelhantes às dos revisores humanos. Parece que não é uma fantasia permitir que grandes modelos nos ajudem a revisar artigos.

GPT-4 foi promovido com sucesso a revisor!

Recentemente, pesquisadores da Universidade de Stanford e de outras instituições enviaram milhares de artigos de conferências importantes da Nature, ICLR, etc. para o GPT-4, permitindo gerar comentários e sugestões de revisão e depois compará-los com as opiniões dadas por revisores humanos. Comparar.

Endereço do papel:

Como resultado, o GPT-4 não apenas fez o trabalho perfeitamente, mas também melhor que os humanos!

Mais de 50% das opiniões emitidas concordam com pelo menos um revisor humano.

E mais de 82,4% dos autores afirmaram que as opiniões dadas pelo GPT-4 foram bastante úteis.

James Zou, o autor do artigo, concluiu: Ainda precisamos de feedback humano de alta qualidade, mas o LLM pode ajudar os autores a melhorar o primeiro rascunho do artigo antes da revisão formal por pares.

## As opiniões que o GPT-4 lhe dá podem ser melhores que as dos humanos

Então, como fazer com que o LLM revise seu manuscrito?

É muito simples, basta extrair o texto do PDF em papel, alimentá-lo no GPT-4 e ele gerará feedback imediatamente.

Especificamente, precisamos extrair e analisar o título, resumo, figuras, títulos de tabelas e texto principal do artigo de um PDF.

Em seguida, diga ao GPT-4 que você precisa seguir o formulário de feedback de revisão das principais conferências de periódicos do setor, que inclui quatro partes - se os resultados são importantes e novos, os motivos para o artigo ser aceito, os motivos para o artigo ser rejeitado, e sugestões de melhoria.

Como você pode ver na imagem abaixo, o GPT-4 deu opiniões muito construtivas e o feedback incluiu quatro partes.

Quais são as falhas deste artigo?

O GPT-4 apontou claramente: Embora o artigo mencionasse o fenômeno da lacuna modal, ele não propôs um método para reduzir a lacuna, nem comprovou os benefícios de fazê-lo.

Os pesquisadores compararam o feedback humano e o feedback do LLM em 3.096 artigos da série Nature e 1.709 artigos do ICLR.

O pipeline de correspondência de comentários de dois estágios extrai pontos de comentários no LLM e no feedback humano, respectivamente, e então executa a correspondência de texto semântica para combinar pontos de comentários comuns entre o LLM e o feedback humano.

A figura abaixo é um pipeline específico de correspondência de revisão em dois estágios.

Para cada revisão pareada, a classificação de similaridade é dada com uma justificativa.

Os pesquisadores definiram o limite de similaridade como 7, e os comentários com correspondência fraca serão filtrados.

Nos dois conjuntos de dados da Nature e ICLR, os comprimentos médios de tokens de artigos e comentários humanos são os seguintes.

Este estudo envolveu 308 pesquisadores de 110 instituições de IA e instituições de biologia computacional nos Estados Unidos.

Cada pesquisador carregou o artigo que escreveu, leu o feedback do LLM e, em seguida, preencheu sua própria avaliação e sentimentos sobre o feedback do LLM.

Os resultados mostram que os investigadores geralmente acreditam que o feedback gerado pelo LLM tem uma grande sobreposição com os resultados dos revisores humanos e é geralmente muito útil.

Se houver alguma lacuna, é que é um pouco menos específico.

如下图所示,对于提交给Nature的论文,大约三分之一(30.85%) dos comentários do GPT-4 se sobrepõem aos comentários dos revisores humanos.

Nos artigos do ICLR, mais de um terço (39,23%) dos comentários do GPT-4 se sobrepõem aos comentários dos revisores humanos.

## LLM e revisores humanos têm prioridades ligeiramente diferentes

A seguir estão os comentários do LLM e os comentários humanos no mesmo artigo do ICLR.Pode-se ver que o LLM tem uma visão muito cruel e os comentários são muito diretos.

Por exemplo, em comparação com pesquisas anteriores, os revisores humanos declararam:

A comparação é falha. Em particular, a consistência do rótulo e as perdas de consistência central do método GNN não são consideradas. Uma comparação mais justa seria usar um método GNN que levasse em conta ambas as perdas.

A avaliação do GPT-4 é:

O artigo carece de uma comparação completa com os métodos existentes. Embora os autores tenham comparado as linhas de base para alguns métodos, é necessária uma comparação mais abrangente.

Em termos de confiabilidade teórica, os revisores humanos deram esta opinião——

IMHO, a prova da teoria é muito trivial. A conclusão final é que se a similaridade for apropriada, a ação prevista é precisa. Como o modelo está aprendendo a similaridade correta, equivale a dizer que se o modelo h estiver bem treinado, a saída estará correta. Isto é óbvio.

A opinião do GPT-4 é:

O autor deve fornecer uma análise mais teórica para comparar a conexão entre a transferência de informações e as restrições de consistência, para que seja mais fácil para os leitores entenderem.

Em termos de reprodutibilidade da pesquisa, os revisores humanos esperam que o artigo possa fornecer código para que outros leitores possam reproduzir o experimento.

O GPT-4 também deu a mesma opinião sobre isso: “Os autores deveriam fornecer informações mais detalhadas sobre as configurações experimentais para garantir a reprodutibilidade do estudo”.

Os usuários que participaram da pesquisa geralmente acreditam que o feedback do LLM pode ajudar a melhorar a precisão das revisões e reduzir a carga de trabalho dos revisores humanos. E a maioria dos usuários pretende usar o sistema de feedback LLM novamente.

Curiosamente, os revisores LLM têm características próprias em comparação com os revisores humanos.

Por exemplo, menciona fatores de impacto 7,27 vezes mais frequentemente do que revisores humanos.

Os revisores humanos estarão mais propensos a solicitar experimentos de ablação adicionais, enquanto o LLM se concentrará em solicitar experimentos em mais conjuntos de dados.

Todos os internautas disseram: Esse trabalho é incrível!

Algumas pessoas também dizem que, na verdade, já faço isso há muito tempo, tenho usado vários LLMs para me ajudar a resumir e melhorar meus artigos.

Alguém perguntou: os revisores da GPT serão tendenciosos para atender aos padrões atuais de revisão por pares?

Algumas pessoas também levantaram a questão de quantificar a sobreposição entre GPT e opiniões de revisão humana. Este indicador é útil?

Entenda que, idealmente, os revisores não devem ter muitas opiniões sobrepostas e são selecionados com a intenção de fornecer perspectivas diferentes.

Mas pelo menos esta pesquisa nos permite saber que o LLM pode de fato ser usado como uma ferramenta para revisão de artigos.

Três etapas, deixe o LLM revisar o manuscrito para você

  1. Crie um servidor de análise de PDF e execute-o em segundo plano:

conda env create -f conda_environment.ymlconda activate ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # Certifique-se de que esteja sendo executado em segundo plano 2. Crie e execute o servidor de feedback LLM:

conda create -n llm python=3.10conda activate llmpip install -r requisitos.txtcat YOUR_OPENAI_API_KEY > key.txt # Substitua YOUR_OPENAI_API_KEY pela sua chave de API OpenAI começando com "sk-"python main.py

  1. Abra um navegador da web e carregue seu artigo:

Abra e carregue seu artigo e você receberá feedback gerado pelo LLM em cerca de 120 segundos.

## Sobre o autor

Weixin Liang

Weixin Liang é estudante de doutorado no Departamento de Ciência da Computação da Universidade de Stanford e membro do Laboratório de Inteligência Artificial de Stanford (SAIL), sob a supervisão do Professor James Zou.

Antes disso, ele recebeu o título de mestre em engenharia elétrica pela Universidade de Stanford, sob a tutela do professor James Zou e do professor Zhou Yu; e o bacharelado em ciência da computação pela Universidade de Zhejiang, sob a tutela do professor Kai Bu e do professor Mingli Song. .

Ele estagiou na Amazon Alexa AI, Apple e Tencent e trabalhou com os professores Daniel Jurafsky, Daniel A. McFarland e Serena Yeung.

Yuhui Zhang

Yuhui Zhang é estudante de doutorado no Departamento de Ciência da Computação da Universidade de Stanford, sob supervisão da Professora Serena Yeung.

Sua pesquisa se concentra na construção de sistemas multimodais de inteligência artificial e no desenvolvimento de aplicações criativas que se beneficiem de informações multimodais.

Antes disso, ele completou seus estudos de graduação e mestrado na Universidade de Tsinghua e na Universidade de Stanford, e trabalhou com pesquisadores de destaque, como o Professor James Zou, o Professor Chris Manning e o Professor Jure Leskovec.

Hancheng Cao

Hancheng Cao é estudante de doutorado do sexto ano no Departamento de Ciência da Computação da Universidade de Stanford (com especialização em Ciências de Gestão e Engenharia). Ele também é membro do Grupo de PNL e do Grupo de Interação Humano-Computador da Universidade de Stanford, supervisionado pelos professores Dan. McFarland e Michael Bernstein.

Ele recebeu seu diploma de bacharel em engenharia eletrônica pela Universidade Tsinghua em 2018 com honras.

Desde 2015, trabalha como assistente de pesquisa na Universidade de Tsinghua, sob a supervisão do Professor Li Yong e do Professor Vassilis Kostakos (Universidade de Melbourne). No outono de 2016, ele trabalhou sob a orientação do Professor Hanan Samet, Distinguished University Professor da Universidade de Maryland. No verão de 2017, ele trabalhou como estudante de intercâmbio e assistente de pesquisa no MIT Media Lab Human Dynamics Group, orientado por Alex 'Sandy' Pentland Professor Xiaowen Dong.

Seus interesses de pesquisa incluem ciências sociais computacionais, computação social e ciência de dados.

Referências:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)