¿GPT-4 se convirtió en crítico de Nature? Los alumnos de Stanford y Tsinghua probaron casi 5.000 artículos y más del 50% de los resultados fueron consistentes con los revisores humanos.

Question

**Fuente:**Xinzhiyuan**Introducción:** Los académicos de Stanford han descubierto que las opiniones de revisión dadas por GPT-4 sobre artículos de Nature e ICLR son más del 50% similares a las de los revisores humanos. Parece que no es una fantasía dejar que modelos grandes nos ayuden a revisar artículos.¡GPT-4 ha sido ascendido con éxito a revisor!Recientemente, investigadores de la Universidad de Stanford y otras instituciones han enviado miles de artículos de conferencias importantes de Nature, ICLR, etc. a GPT-4, lo que le permite generar comentarios y sugerencias de revisión, y luego compararlos con las opiniones dadas por revisores humanos. Comparar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) Dirección del papel:Como resultado, GPT-4 no sólo hizo el trabajo a la perfección, ¡sino que incluso lo hizo mejor que los humanos!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) Más del 50% de las opiniones que da coinciden con al menos un revisor humano.Y más del 82,4% de los autores dijeron que las opiniones dadas por GPT-4 fueron bastante útiles.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) James Zou, el autor del artículo, concluyó: Todavía necesitamos comentarios humanos de alta calidad, pero el LLM puede ayudar a los autores a mejorar su primer borrador del artículo antes de la revisión formal por pares.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **Las opiniones que te da GPT-4 pueden ser mejores que las de los humanos**Entonces, ¿cómo conseguir que LLM revise su manuscrito?Es muy simple: simplemente extraiga el texto del PDF en papel, introdúzcalo en GPT-4 y generará comentarios de inmediato.Específicamente, necesitamos extraer y analizar el título, el resumen, las figuras, los títulos de las tablas y el texto principal del artículo de un PDF.Luego, dígale a GPT-4 que debe seguir el formulario de comentarios de revisión de las principales conferencias de revistas de la industria, que incluye cuatro partes: si los resultados son importantes y novedosos, las razones por las que se aceptó el artículo, las razones por las que se rechazó el artículo, y sugerencias de mejora.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) Como puede ver en la imagen a continuación, GPT-4 dio opiniones muy constructivas y los comentarios incluyeron cuatro partes.¿Cuáles son los defectos de este artículo?GPT-4 señaló claramente: aunque el documento menciona el fenómeno de la brecha modal, no propone un método para reducir la brecha ni demuestra los beneficios de hacerlo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) Los investigadores compararon la retroalimentación humana y la retroalimentación de LLM en 3.096 artículos de la serie Nature y 1.709 artículos de ICLR.El proceso de coincidencia de comentarios de dos etapas extrae puntos de comentarios en LLM y comentarios humanos respectivamente, y luego realiza una coincidencia de texto semántico para hacer coincidir puntos de comentarios comunes entre LLM y comentarios humanos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) La siguiente figura es un proceso de coincidencia de revisión específico de dos etapas.Para cada revisión emparejada, la calificación de similitud se otorga con una justificación.Los investigadores establecieron el umbral de similitud en 7 y se filtrarán los comentarios que coincidan débilmente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) En los dos conjuntos de datos de Nature e ICLR, la longitud promedio de los tokens de los artículos y los comentarios humanos es la siguiente.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) En este estudio participaron 308 investigadores de 110 instituciones de IA e instituciones de biología computacional en los Estados Unidos.Cada investigador subió el artículo que escribió, leyó los comentarios del LLM y luego completó su propia evaluación y sentimientos sobre los comentarios del LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) Los resultados muestran que los investigadores generalmente creen que la retroalimentación generada por LLM tiene una gran superposición con los resultados de los revisores humanos y suele ser muy útil.Si hay algún defecto es que es un poco menos específico.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) de los comentarios de GPT-4 se superponen con los comentarios de revisores humanos.En los artículos de ICLR, más de un tercio (39,23%) de los comentarios de GPT-4 se superponen con los comentarios de revisores humanos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **LLM y revisores humanos tienen prioridades ligeramente diferentes**Los siguientes son comentarios de LLM y comentarios humanos sobre el mismo artículo de ICLR. Se puede ver que LLM tiene una visión muy cruel y los comentarios van al grano.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) Por ejemplo, en comparación con investigaciones anteriores, los revisores humanos afirmaron:> La comparación es defectuosa. En particular, no se consideran las pérdidas de consistencia de la etiqueta y de consistencia del centro del método GNN. Una comparación más justa sería utilizar un método GNN que tenga en cuenta ambas pérdidas.La evaluación de GPT-4 es:> El documento carece de una comparación exhaustiva con los métodos existentes. Aunque los autores compararon las líneas de base de algunos métodos, se necesita una comparación más exhaustiva.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) En términos de confiabilidad teórica, los revisores humanos dieron esta opinión:> En mi humilde opinión, la prueba de la teoría es demasiado trivial. La conclusión final es que si la similitud es apropiada, la acción prevista es precisa. Dado que el modelo está aprendiendo la similitud correcta, equivale a decir que si el modelo h está bien entrenado, el resultado será correcto. Esto es obvio.La opinión de GPT-4 es:> El autor debería proporcionar más análisis teóricos para comparar la conexión entre la transferencia de información y las restricciones de coherencia, para que sea más fácil de entender para los lectores.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) En términos de reproducibilidad de la investigación, los revisores humanos esperan que el artículo pueda proporcionar código para que otros lectores puedan reproducir el experimento.GPT-4 también expresó la misma opinión al respecto: "Los autores deberían proporcionar información más detallada sobre los entornos experimentales para garantizar la reproducibilidad del estudio".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) Los usuarios que participaron en la encuesta generalmente creen que los comentarios de LLM pueden ayudar a mejorar la precisión de las revisiones y reducir la carga de trabajo de los revisores humanos. Y la mayoría de los usuarios tienen la intención de volver a utilizar el sistema de retroalimentación LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) Curiosamente, los revisores de LLM tienen sus propias características únicas en comparación con los revisores humanos.Por ejemplo, menciona factores de impacto 7,27 veces más frecuentemente que los revisores humanos.Será más probable que los revisores humanos soliciten experimentos de ablación adicionales, mientras que el LLM se centrará en solicitar experimentos con más conjuntos de datos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) Todos los internautas dijeron: ¡Este trabajo es increíble!Algunas personas también dicen que, de hecho, he estado haciendo esto durante mucho tiempo y he estado usando varios LLM para ayudarme a resumir y mejorar mis trabajos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) Alguien preguntó: ¿Estarán parcializados los revisores de GPT para cumplir con los estándares actuales de revisión por pares?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) Algunas personas también han planteado la cuestión de cuantificar la superposición entre GPT y las opiniones de revisión humana: ¿es útil este indicador?Comprenda que, idealmente, los revisores no deberían tener demasiadas opiniones superpuestas y se seleccionan con la intención de brindar perspectivas diferentes.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) Pero al menos, esta investigación nos permite saber que el LLM puede utilizarse como herramienta para revisar artículos.## **Tres pasos, deje que LLM revise el manuscrito por usted**1. Cree un servidor de análisis de PDF y ejecútelo en segundo plano:*conda env create -f conda_environment.ymlconda enable ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # Asegúrese de que esto se esté ejecutando en segundo plano*2. Cree y ejecute el servidor de comentarios de LLM:*conda create -n llm python=3.10conda enable llmpip install -r requisitos.txtcat YOUR_OPENAI_API_KEY > key.txt # Reemplace YOUR_OPENAI_API_KEY con su clave API de OpenAI que comienza con "sk-"python main.py3. Abra un navegador web y cargue su artículo:Abra y cargue su artículo y obtendrá comentarios generados por LLM en aproximadamente 120 segundos.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **Sobre el Autor****Weixin Liang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang es estudiante de doctorado en el Departamento de Ciencias de la Computación de la Universidad de Stanford y miembro del Laboratorio de Inteligencia Artificial de Stanford (SAIL), bajo la supervisión del profesor James Zou.Antes de eso, obtuvo una maestría en ingeniería eléctrica de la Universidad de Stanford, bajo la tutela del profesor James Zou y el profesor Zhou Yu; y una licenciatura en ciencias de la computación de la Universidad de Zhejiang, bajo la tutela del profesor Kai Bu y el profesor Mingli Song. .Ha realizado prácticas en Amazon Alexa AI, Apple y Tencent, y ha trabajado con los profesores Daniel Jurafsky, Daniel A. McFarland y Serena Yeung.**Yuhui Zhang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang es estudiante de doctorado en el Departamento de Ciencias de la Computación de la Universidad de Stanford, bajo la supervisión de la profesora Serena Yeung.Su investigación se centra en la construcción de sistemas de inteligencia artificial multimodal y el desarrollo de aplicaciones creativas que se beneficien de la información multimodal.Antes de eso, completó sus estudios de pregrado y maestría en la Universidad de Tsinghua y la Universidad de Stanford, y trabajó con destacados investigadores como el profesor James Zou, el profesor Chris Manning y el profesor Jure Leskovec.**Hancheng Cao**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao es estudiante de doctorado de sexto año en el Departamento de Ciencias de la Computación de la Universidad de Stanford (con especialización en Ciencias de la Gestión e Ingeniería). También es miembro del Grupo de PNL y del Grupo de Interacción Humano-Computadora de la Universidad de Stanford, supervisado por los profesores Dan. McFarland y Michael Bernstein.Recibió su licenciatura en ingeniería electrónica de la Universidad de Tsinghua en 2018 con honores.Desde 2015 trabaja como asistente de investigación en la Universidad de Tsinghua, bajo la supervisión del profesor Li Yong y el profesor Vassilis Kostakos (Universidad de Melbourne). En el otoño de 2016, trabajó bajo la dirección del profesor Hanan Samet, profesor universitario distinguido de la Universidad de Maryland. En el verano de 2017, trabajó como estudiante de intercambio y asistente de investigación en el Grupo de Dinámica Humana del MIT Media Lab, tutelado por el profesor Alex 'Sandy' Pentland Xiaowen Dong.Sus intereses de investigación incluyen ciencias sociales computacionales, computación social y ciencia de datos.Referencias: