¡GPT-4 no sabe que está mal! Los nuevos defectos de LLM quedaron expuestos, y la tasa de éxito de la autocorrección fue solo del 1%, y LeCun Marcus exclamó que cuanto más corregía, más mal

2023-10-22 05:30:11

GPT-4 simplemente no sabe que está cometiendo un error? Las últimas investigaciones han encontrado que LLM en la tarea de razonamiento, después de la autocorrección, no puede salvar el deterioro del rendimiento, lo que lleva al jefe de IA LeCun Marcus a observar.

Fuente original: Shin Ji Yuan

Fuente de la imagen: Generado por Unbounded AI

¡El gran modelo estuvo expuesto a grandes defectos, lo que atrajo la atención de LeCun y Marcus al mismo tiempo!

En el experimento de inferencia, el modelo que afirmaba mejorar la precisión se autocorrigió, ¡"mejoró" la tasa de precisión del 16% al 1%!

En pocas palabras, LLM no puede mejorar el resultado en forma de autocorrección en forma de tareas de inferencia, a menos que LLM ya sepa la respuesta correcta en el proceso de autocorrección.

Dos artículos publicados por investigadores de ASU refutan el método de "autocorrección" propuesto por muchos estudios anteriores: permitir que los modelos grandes autocorrijan sus resultados de salida puede mejorar la calidad de la salida del modelo.

Dirección del papel:

El profesor Subbarao Kambhampati, coautor del artículo, se ha comprometido con la investigación de la capacidad de razonamiento de la IA y publicó un artículo en septiembre, incluso negando por completo la capacidad de razonamiento y planificación de GPT-4.

Dirección del papel:

Además de este profesor, investigadores recientes de DeepMind y la Universidad UIUC también han cuestionado la capacidad de LLM para "autocorregirse" en tareas de razonamiento.

El documento incluso hace un llamado a todos los académicos que hacen investigación relevante para que tomen en serio su investigación, y no le digan al gran modelo la respuesta correcta y luego dejen que lleve a cabo la llamada "autocorrección".

Porque si el modelo no conoce la respuesta correcta, la calidad de salida se deteriorará después de que el modelo se "autocorrija".

A continuación, echemos un vistazo a estos dos últimos documentos.

GPT-4 "autocorregible", la salida es peor

El primer artículo se centró en GPT-4, pidiéndole a GPT-4 que proporcionara una solución al problema del sombreado de gráficos, y luego haciendo que GPT-4 "autocorrigiera" su propia solución.

Al mismo tiempo, los autores introdujeron un sistema de evaluación externa para evaluar el resultado directo de GPT-4 y el resultado después de un ciclo de "autocorrección".

Los resultados experimentales muestran que GPT-4 tiene menos del 20% de precisión en la adivinación del color, lo que no parece ser sorprendente.

Pero, sorprendentemente, la precisión en el modo de "autocorrección" disminuyó significativamente (la segunda barra a continuación), ¡completamente contraria a todas las intenciones de autocorrección!

Según los autores, esta situación aparentemente contraria a la intuición puede explicarse por esto: ¡GPT-4 también hace un trabajo terrible al verificar las respuestas correctas!

Porque incluso cuando GPT-4 adivina accidentalmente el color correcto, su "autocorrección" le hará pensar que la respuesta correcta es problemática y luego reemplazará la respuesta correcta.

Investigaciones posteriores también descubrieron que GPT-4 mejoraría su solución si un validador externo proporcionara una respuesta correcta verificable al color que adivinaba.

En este caso, el mensaje generado por la "autocorrección" puede mejorar la calidad de la salida (barras 3-5 de la figura anterior)

En resumen, para la tarea del "problema de colorear", la "autocorrección" independiente de GPT-4 perjudicará el rendimiento de la salida, porque GPT-4 no puede verificar que la respuesta sea correcta.

Sin embargo, si se proporciona el proceso de verificación externa correcto, la "autocorrección" generada por GPT-4 puede mejorar el rendimiento.

Otro artículo analizó la capacidad de los grandes modelos lingüísticos para "autocorregirse" desde la perspectiva de las tareas de planificación, y los resultados fueron similares a los del artículo anterior.

Además, los investigadores descubrieron que lo que realmente mejoraba la precisión de la salida no era la "autocorrección" del LLM, sino la retroalimentación de un validador externo independiente.

En el análisis final, LLM no tiene forma de llevar a cabo una verificación independiente, y debe confiar en la "respuesta correcta" dada por un validador externo para "autocorregirse" de manera efectiva.

"Preguntas para colorear" tuvo un desempeño deficiente y LLM no pudo verificar de forma independiente las respuestas correctas

Marco de diseño de investigación

El "problema de colorear" es un problema de razonamiento muy clásico, incluso si no es difícil, las respuestas son lo suficientemente diversas y la corrección de las respuestas es fácil de verificar.

Los resultados de la diversidad dificultan la cobertura de todos los datos de entrenamiento de LLM, y se evita en la medida de lo posible la posibilidad de contaminación de los datos de entrenamiento de LLM.

Estas razones hacen que el "problema de colorear" sea muy adecuado para estudiar la capacidad de razonamiento de LLM, y también es conveniente estudiar la capacidad de LLM para "autocorregirse" en el razonamiento.

Los investigadores construyeron su propio conjunto de datos, utilizando GrinPy2 para manejar las manipulaciones de gráficos comunes. Cada grafo se construye utilizando el método de Erdos-Rényi (̋p = 0,4).

Una vez que se encuentra la respuesta correcta, se compila en el formato DIMACS estándar con un comentario que contiene su número cromático precalculado.

Para el siguiente experimento, los investigadores generaron 100 instancias, cada una con un promedio de 24 aristas, distribuidas en un rango de nodos de 10 a 17, una distribución que la experiencia ha demostrado que es un rango suficientemente variable.

El diagrama utilizado por los investigadores se muestra en la Figura 1 a continuación, que incluye la primera respuesta de LLM, el mensaje posterior de la respuesta y el esquema de color correcto final.

### Arquitectura para respaldo iterativo

Generador de avisos:

Este generador de mensajes toma una instancia de DIMACS, traduce cada borde en una oración y, a continuación, lo envuelve todo en un conjunto de instrucciones genéricas para construir un mensaje de lenguaje natural.

Los investigadores redujeron intencionalmente las diferencias entre las diferentes indicaciones de instancia para reducir la información específica del problema que los investigadores filtraron a LLM. En el apéndice se pueden encontrar ejemplos de varios tipos de indicaciones.

Modelos lingüísticos grandes:

GPT-4 se llama a través de la API de OpenAI, que actualmente es el modelo más avanzado.

Los investigadores proporcionan un rol en el sistema: "Usted es un solucionador de satisfacción de restricciones que resuelve varios CSP (problemas de satisfacción de restricciones)".

Generación anterior

En el modo de autenticación, LLM recibe un tipo diferente de solicitud.

Además de las instrucciones estándar, solo contiene una descripción del diagrama y un esquema de color recomendado. Su tarea es verificar la corrección, la optimalidad y que cada vértice ha sido pintado de un color.

Si la respuesta resultante tiene un conjunto de bordes que son contradictorios, el esquema de color es incorrecto.

Para comparar cada punto, los investigadores también construyeron un validador que enumeraba cada borde contradictorio.

Dado que las respuestas de LLM también están en forma de lenguaje natural, los investigadores primero las tradujeron a un formato que fuera fácil de analizar. Para hacer que este proceso sea más consistente, los investigadores diseñaron sugerencias iniciales para describir el formato de salida preciso que debe seguir un modelo. A continuación, se evalúa la corrección de la respuesta.

Para juzgar los resultados de la validación del LLM, los investigadores examinan su rendimiento en la identificación de errores en el esquema de sombreado propuesto.

Intuitivamente, estos deberían ser fáciles de identificar: si dos vértices que componen una arista comparten un color, regresa inmediatamente a esa arista. Desde un punto de vista algorítmico, basta con detectar todas las aristas y comparar el color de cada vértice con el color del punto al que está conectado.

Verificación

Para obtener una comprensión más profunda de las capacidades de verificación de LLM, los investigadores estudiaron su desempeño en la identificación de errores en el esquema de coloración propuesto.

Intuitivamente, estos errores deberían ser fáciles de identificar: si dos vértices que componen una arista comparten un color, la arista se devuelve inmediatamente. Desde un punto de vista algorítmico, todo lo que hay que hacer es iterar a través de todas las aristas y comparar el color de cada vértice con el color de su vértice correspondiente.

Los investigadores utilizaron el mismo proceso de análisis, pero construyeron un nuevo dominio que los investigadores llamaron color_verification. LLM se guía para comprobar la corrección del sombreado, la optimalidad y si a cada vértice se le ha asignado un color.

Si el sombreado es incorrecto, se le indica que enumere los errores en el sombreado, es decir, si dos nodos conectados comparten un color, ese borde se devuelve para representar el error. No se dan espaldas.

Los investigadores utilizaron el mismo ejemplo de gráfico que antes, pero generaron cuatro esquemas de sombreado para probar el modelo:

Correcto: Un esquema de sombreado óptimo sin errores generado por un algoritmo codicioso iterativo y aleatorio (que utiliza un número precalculado de colores para garantizar la optimalidad).

Anulado: Cambia el color de un nodo aleatorio de un conjunto anterior de esquemas de sombreado a sus vecinos.

No óptimo: en el conjunto correcto, una parte de color se selecciona aleatoriamente y se vuelve a colorear en un nuevo tono.

Aleatorio: Colores asignados completamente al azar, el número de colores diferentes es igual al número de colores de la figura.

LLM: Un esquema de coloración seleccionado al azar de la salida generada por LLM de experimentos anteriores.

Conclusión

Se solicita el LLM, se evalúan las respuestas y se avanza a la siguiente instancia sin ningún tipo de retroceso, lo que da como resultado una puntuación de referencia del 16%.

Cuando los investigadores ejecutaron la misma instancia, pero esta vez devolvieron el mensaje utilizando la retroalimentación generada por el mismo modelo de lenguaje que actuaba como validador, el rendimiento disminuyó drásticamente: solo una de cada 100 instancias obtuvo la respuesta correcta.

Los resultados de la solicitud de devolución con un validador calificado externamente pueden parecer más efectivos al principio.

El número de instancias de respuestas correctas es cercano al 40 por ciento, pero si eso significa que GPT-4 está escuchando, mejorando y razonando en función de la retroalimentación, entonces los investigadores esperan mejores resultados de indicaciones de retorno más precisas.

Sin embargo, en este dominio, la fracción bruta (véase la figura 2 anterior) no lo demuestra.

Capacidad de verificación LLM

Los investigadores probaron la capacidad de GPT-4 para verificar esquemas de sombreado de grafos en la misma instancia, generando cinco tipos diferentes de esquemas de sombreado para cada instancia.

El resultado obvio es exactamente el mismo que el resultado de la autocorrección de LLM anterior: el modelo es casi reacio a marcar cualquier respuesta como correcta. De los 100 esquemas de sombreado óptimos, está de acuerdo en que solo 2 de ellos son correctos.

De toda la colección de 500 esquemas de coloración, 118 de los cuales son correctos, solo afirma que 30 de ellos son correctos. De estos 30, solo 5 eran realmente correctos.

En general, este patrón sigue siendo el mismo. En menos del 10% de los casos, LLM dio una respuesta de "correcta", "no óptima" o "falta de tarea". En estos casos, el comportamiento parece algo aleatorio.

En aproximadamente una cuarta parte de los casos, responde con una validación de "esto es incorrecto" mientras que la interpretación corresponde a la realidad, y solo lo hace indicando no más de un lado, minimizando la posibilidad de tergiversar algo.

Los resultados se muestran en la Tabla 2 anterior. Tenga en cuenta que cuando aumenta la tasa de error del dominio, la proporción de alucinaciones disminuye. Es decir, cuando hay más bordes incorrectos, es más probable que el modelo señale dónde salió algo mal.

Autocrítica LLM, el rendimiento no aumenta sino que disminuye

En el artículo presentado el día 12, los autores también llegaron a la misma conclusión que la anterior.

Ya sea que se trate de planificación, aritmética simple o lógica, el GPT-4, el modelo grande de última generación actual, no es completamente competente.

Muchos investigadores lo han explorado y mejorado, incluyendo permitir que LLM aprenda la auto-iteración, la auto-validación y otras estrategias para mejorar el rendimiento.

Como resultado, la gente de la industria es optimista de que el gran modelo aún se puede salvar.

Sin embargo, la complejidad de la tarea de inferencia en el sentido clásico no tiene nada que ver con el modelo grande, porque LLM es un modelo que utiliza la recuperación aproximada en lugar del razonamiento preciso.

En un artículo presentado por arXiv el día 12, los investigadores de ASU evaluaron y analizaron sistemáticamente la capacidad de LLM para autocriticarse en la planificación de tareas y la optimización iterativa.

En el estudio, los autores proponen un sistema de planificación que incluye el generador LLM y el validador LLM.

Entre ellos, el generador GPT-4 es responsable de generar planes candidatos, y el validador GPT-4 es responsable de verificar la corrección del plan y proporcionar retroalimentación.

A continuación, los investigadores llevaron a cabo experimentos en el campo de la planificación de Blocksworld y realizaron evaluaciones empíricas de:

El impacto de la autocrítica en el rendimiento de generación planificado de todo el sistema LLM+LLM
el rendimiento del LLM del validador en relación con la verificación de la verdad sobre el terreno;
Al criticar la generación de LLM, el mismo nivel de retroalimentación afecta el rendimiento general del sistema.

Los resultados muestran que la autocrítica reduce el rendimiento de la generación de planificación de LLM en comparación con el uso de un validador externo confiable.

La degradación del rendimiento se puede atribuir directamente a los malos resultados del validador LLM, que produce una gran cantidad de falsos positivos, lo que puede perjudicar seriamente la confiabilidad del sistema.

La precisión de la clasificación binaria del LLM del validador es solo del 61%, y hay un gran número de falsos positivos (juzgar el esquema incorrecto como correcto).

Además, de acuerdo con la comparación del nivel de detalle de la retroalimentación, se encuentra que tiene poco impacto en el desempeño de la generación de planificación.

En general, la investigación sistemática de este estudio proporciona evidencia preliminar que cuestiona la efectividad del LLM como validador de las tareas de planificación dentro de un marco iterativo y autocrítico.

Sobre el autor

Subbarao Kambhampati

Subbarao Kambhampati es profesor de ciencias de la computación en la Universidad Estatal de Arizona. Kambhampati investiga cuestiones fundamentales en la planificación y la toma de decisiones, particularmente impulsadas por los desafíos de los sistemas de inteligencia artificial para la percepción humana.

Recursos:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta

Recompensa
2
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
95k Popularidad
2White House Crypto Report
82k Popularidad
3Join Alpha RION Airdrop to Earn $40
67k Popularidad
4Fed Holds Rates Decision
11k Popularidad
5July Spark Program TOP 10 Creators Announced
4k Popularidad

Anclado