DeepMind: Los modelos grandes también están expuestos a defectos importantes y no pueden corregir su razonamiento por sí mismos, a menos que se conozca la respuesta correcta de antemano

Fuente original: Shin Ji Yuan

Los investigadores > DeepMind descubrieron que el LLM tiene un defecto inherente: no puede obtener mejores respuestas autocorrigiéndose durante el razonamiento a menos que las etiquetas de verdad estén preestablecidas en el conjunto de datos. Marcus volvió a enviar el papel con alegría.

Fuente de la imagen: Generado por Unbounded AI

¡Otra falla importante del gran modelo de lenguaje fue expuesta por DeepMind!

LLM no puede corregir errores en su propio razonamiento.

La autocorrección, una técnica para permitir que los modelos corrijan sus propias respuestas, puede mejorar significativamente la calidad de salida del modelo en muchos tipos de tareas.

Pero recientemente, investigadores de Google DeepMind y UIUC descubrieron que el "mecanismo de autocorrección" de LLM era repentinamente inútil para las tareas de razonamiento.

Además, LLM no solo no puede autocorregir las respuestas a las tareas de razonamiento, sino que a menudo se autocorrige, la calidad de las respuestas también disminuirá significativamente.

Marcus también retuiteó el artículo, con la esperanza de llamar la atención de más investigadores sobre esta falla del gran modelo de lenguaje.

La técnica de "autocorrección" se basa en la simple idea de permitir que LLM corrija y mejore su contenido generado de acuerdo con ciertos criterios. Este método puede mejorar significativamente la calidad de salida del modelo en tareas como problemas matemáticos.

Pero los investigadores encontraron que en la tarea de razonamiento, la retroalimentación después de la autocorrección a veces era muy buena, a veces el efecto era muy pobre e incluso el rendimiento disminuía.

Los investigadores también estudiaron la literatura que creía que la "autocorrección" podría mejorar el resultado del razonamiento y, tras un examen más detallado, encontraron que la mejora de la "autocorrección" provenía de la introducción de información externa para guiar al modelo hacia la autocorrección. Y cuando no se introduce información externa, estas mejoras desaparecen.

En concreto, la autocorrección funciona de forma eficaz cuando el modelo tiene acceso a las etiquetas de realidad fundamental contenidas en el conjunto de datos de referencia.

Esto se debe a que el algoritmo puede determinar exactamente cuándo detener el proceso de inferencia y evitar cambiar la respuesta cuando ya es correcta.

Los investigadores creen que las etiquetas reales han tendido a usarse en estudios anteriores para evitar que los modelos cambien las respuestas correctas a respuestas incorrectas. Pero cómo prevenir esta situación de "corrección correcta" es en realidad la clave para asegurar el éxito de la autocorrección.

Porque cuando los investigadores eliminan la etiqueta verdadera del proceso de autocorrección, el rendimiento del modelo se degrada significativamente.

Como un intento de mejorar el enfoque de autocorrección de LLM para las tareas de razonamiento, los investigadores también exploraron el potencial del "debate multiagente" como un medio para mejorar el razonamiento. Sin embargo, sus resultados muestran que este método no funciona mejor que la autoconsistencia cuando se considera un número igual de respuestas.

Los investigadores propusieron además los conceptos de "pre-prompt" y "post-prompt".

Ven la autocorrección como una forma de aviso post-hoc, donde el mensaje correctivo se ingresa después de la respuesta de LLM.

El análisis de los investigadores sugiere que la mejora de la autocorrección en algunas tareas puede provenir de indicaciones de retroalimentación bien diseñadas que enmascaran indicaciones iniciales crudas.

En este caso, la integración de una mejor retroalimentación en las instrucciones iniciales o el diseño de mejores indicaciones iniciales pueden producir mejores resultados y reducir los costos de inferencia.

Basándose en los hallazgos de los investigadores, los investigadores profundizaron en los matices de la capacidad de LLM para autocorregirse, instando a la comunidad investigadora a abordar la investigación de autocorrección con mayor rigor.

¿Pueden los grandes modelos de lenguaje autocorregir su razonamiento? **

Los investigadores trataron de tomar el método de autocorrección existente, empleando su configuración (usando etiquetas para guiar el proceso de autocorrección) para examinar su efectividad en la mejora del rendimiento en las tareas de razonamiento de LLM.

Configuración del experimento

Palabras rápidas

Los investigadores utilizaron una estrategia de señales de tres pasos para autocorregirse:

  1. solicitar el modelo para la generación inicial (esto también es el resultado de las solicitudes estándar);

  2. solicitar al modelo que revise su generación anterior y genere retroalimentación;

  3. Vuelva a responder a la pregunta original a través del modelo de sugerencia de retroalimentación.

Modelo

La prueba principal de los investigadores se realizó en GPT-3.5-Turbo.

Los investigadores también probaron GPT-4, al que se accedió el 29 de agosto de 2023, con el objetivo de probar las capacidades de autocorrección de las últimas y más potentes iteraciones de los modelos de OpenAI.

Para GPT-3.5, los investigadores utilizaron el conjunto completo de evaluaciones mencionadas anteriormente. Para GPT-4, para reducir costos, los investigadores tomaron una muestra aleatoria de 200 preguntas para cada conjunto de datos (100 preguntas para HotpotQA) para su prueba.

Resultados y reflexiones

Si bien los investigadores no utilizaron ningún recurso o herramienta externa en sus experimentos, los investigadores siguieron el trabajo anterior, utilizando etiquetas de verdad para determinar cuándo detener el ciclo de autocorrección.

Pero en el mundo real, especialmente cuando los investigadores tienen la intención de resolver problemas matemáticos con LLM, la mayoría de las veces no se conoce la respuesta correcta.

Por lo tanto, la mejora del rendimiento debe considerarse con más cuidado.

Para confirmar esta idea, los investigadores diseñaron una línea de base basada en conjeturas aleatorias. En esta línea de base, los investigadores continúan usando etiquetas de verdad para determinar cuándo detenerse; Sin embargo, LLM no realiza acciones correctivas, sino que se basan en conjeturas aleatorias de las opciones restantes.

CommonSenseQA es un conjunto de datos de preguntas de opción múltiple que proporciona cinco opciones candidatas para cada pregunta.

Si la precisión de generación de la k-ésima ronda (la generación inicial es la ronda 0) se expresa como x, la precisión esperada de las compilaciones posteriores se convierte en x + (1 − x)/(5 − k).

Los resultados de esta línea de base aleatoria se presentan en la Tabla 2 anterior.

Después de 2 rondas, su rendimiento es comparable o incluso mejor que la autocalibración, y después de 4 rondas, su precisión alcanza el 100%.

Sin embargo, está claro que una línea de base tan aleatoria no puede considerarse un método de corrección eficaz. Aun así, los resultados obtenidos mediante etiquetas pueden actuar como un oráculo, lo que indica que hay verificadores perfectos que pueden juzgar la corrección de una respuesta.

En tareas como la generación de código, esto es factible porque los investigadores pueden utilizar ejecutores y pruebas unitarias para determinar si el código generado se ejecuta correctamente (Chen et al., 2023b).

Sin embargo, para tareas de razonamiento, como la resolución de problemas matemáticos, esta configuración parece contradictoria. Si los investigadores ya tienen la verdad, parece que no hay razón para usar LLM para resolver el problema.

Autocorrección intrínseca

En el caso de GSM8K, es posible que no exista una línea de base aleatoria similar, pero la lógica sigue siendo la misma.

Además, los investigadores pueden diseñar una línea de base, como generar números aleatorios de uno en uno. Después de bastantes rondas, puede obtener la respuesta correcta, pero tal mejora claramente no tiene sentido. La razón más inmediata: ¿Por qué harían esto los investigadores si ya sabían la respuesta?

La configuración experimental se definió anteriormente. Para lograr esto, los investigadores simplemente quitaron la etiqueta de uso para determinar cuándo detenerse y evaluaron el rendimiento a través de dos rondas de autocorrección.

La tabla 3 anterior muestra la precisión y el número de llamadas al modelo. Los investigadores observaron que después de la autocorrección, el rendimiento del modelo se degradó en todos los puntos de referencia.

**¿Por qué se degradó el rendimiento? **

La Figura 1 anterior resume los resultados del cambio de respuesta después de dos rondas de autocorrección utilizando GPT-3.5, y en la Figura 2 se muestran dos ejemplos a continuación.

Para GSM8K, el modelo conserva su respuesta inicial con un 74,7% de probabilidad. En el resto de los casos, el modelo era más propenso a modificar la respuesta correcta a la respuesta incorrecta que a modificar la respuesta incorrecta a la respuesta correcta.

Para CommonSenseQA, es más probable que GPT-3.5 cambie su respuesta. La razón principal de esto es que las opciones de respuesta incorrectas en CommonSenseQA a menudo parecen estar relacionadas con la pregunta, y el uso de sugerencias de autocorrección puede sesgar el modelo a favor de elegir otra opción, lo que resulta en una alta proporción de "error ⇒ correcto".

Dejemos que los investigadores echen otro vistazo a los resultados que se muestran en la Tabla 1 anterior. Estos resultados utilizan etiquetas de verdad para evitar que el modelo cambie la respuesta correcta por la respuesta incorrecta.

Sin embargo, cómo prevenir este "error de corrección" es en realidad la clave para garantizar el éxito de la autocorrección.

La explicación intuitiva es que si el modelo coincide con un mensaje inicial bien diseñado, entonces, dado el mensaje y el algoritmo de decodificación específico, la respuesta inicial ya debería ser óptima.

La introducción de comentarios puede verse como la adición de sugerencias adicionales que pueden sesgar el modelo hacia la producción de respuestas que se ajusten a esa combinación de entradas.

En un entorno de autocorrección intrínseca, en una tarea de inferencia, es posible que esta indicación complementaria no proporcione ninguna ventaja adicional para responder a la pregunta.

De hecho, incluso puede desviar el modelo para que no produzca la mejor respuesta al mensaje inicial, lo que da como resultado un rendimiento degradado.

Uno podría preguntarse, ¿las señales de autocorrección probadas por los investigadores no son ideales?

¿Pueden otros consejos mejorar el rendimiento? La respuesta es: es totalmente posible que los investigadores encuentren una pista que mejore el rendimiento del modelo en un punto de referencia específico. Sin embargo, esto ya no es coherente con la configuración de autocorrección intrínseca que se describe en este artículo, similar a la discusión de una verdadera configuración de menos muestras.

Esta búsqueda aprovecha esencialmente la retroalimentación de los humanos o ejemplos de entrenamiento. Además, la misma estrategia se puede aplicar de manera efectiva para optimizar las sugerencias iniciales, lo que podría lograr un mejor rendimiento sin la necesidad de llamadas de modelo adicionales para autocorregirse.

En el Apéndice B, los investigadores probaron diferentes consejos, pero encontraron que el rendimiento aún no mejoraba.

Además, los investigadores no son los primeros en observar que la autocorrección no necesariamente mejora la capacidad de razonamiento de LLM. En resumen, el enfoque de los investigadores no está en abordar preguntas como: "¿Existen señales autocorrectivas que puedan mejorar el rendimiento de un punto de referencia en particular?" y así sucesivamente. Es posible que estas consultas no sean particularmente significativas.

En cambio, los investigadores pretenden resolver una pregunta más fundamental: "¿Pueden los grandes modelos de lenguaje realmente corregir su razonamiento por sí mismos basándose únicamente en su capacidad inherente?"

La autocorrección como una ocurrencia tardía**

En contenido anterior, los investigadores observaron que LLM enfrentaba desafíos para autocorregir su razonamiento.

Sin embargo, como han demostrado investigaciones anteriores, la autocorrección en algunos casos ha dado resultados impresionantes.

Por lo tanto, es fundamental identificar las discrepancias y señalar las causas raíz.

Para resolver este problema, es importante comprender la naturaleza básica de la autocorrección. En su forma, la autocorrección puede verse como una ocurrencia tardía.

Se diferencia de las indicaciones estándar (llamadas pre-indicaciones aquí) en que las indicaciones se realizan sobre las respuestas de LLM.

Los investigadores llaman al proceso de mejora de tales señales ingeniería de avisos posteriores al evento.

Por lo tanto, la autocorrección mejora las respuestas del modelo cuando la autocorrección puede proporcionar una guía o retroalimentación valiosa que las indicaciones anteriores no pueden proporcionar.

Por ejemplo, cuando el objetivo es hacer que la respuesta sea más segura, puede ser difícil guiar el modelo para producir una respuesta completamente libre de riesgos en el primer intento utilizando solo sugerencias pre-hoc. En este caso, la autocorrección se puede utilizar como un medio para mejorar la seguridad de la respuesta a través de comprobaciones post mortem detalladas.

Sin embargo, este puede no ser el caso de las tareas de inferencia.

Mensajes de retroalimentación, como "Revisa tus respuestas anteriores y encuentra un problema con tus respuestas". No necesariamente proporciona beneficios tangibles para el razonamiento.

Además, incluso si se observa una mejora significativa en el rendimiento después de la autocorrección, es necesario considerar cuidadosamente el diseño rápido.

Por ejemplo, si la respuesta debe cumplir con criterios que se pueden especificar fácilmente en la instrucción inicial (por ejemplo, la salida debe contener ciertas palabras, el código generado debe ser eficiente, el sentimiento debe ser fuertemente negativo), en lugar de proporcionar estos requisitos como retroalimentación en el mensaje post-mortem, una estrategia alternativa más rentable es incrustar estos requisitos directamente (explícitamente) en el mensaje previo.

Los resultados de la Tabla 5 muestran que la señal cuidadosamente diseñada por los investigadores "señal estándar (del investigador)" fue superior a los resultados autocorregidos de estudios anteriores.

Además, el rendimiento incluso se degrada cuando los investigadores utilizan sus puntas para mejorar el rendimiento de los investigadores.

Una vez más, el objetivo de los investigadores aquí no es discutir si hay indicaciones post-hoc que puedan superar a las que los investigadores escriben a voluntad. El objetivo principal de los investigadores es fomentar un escrutinio más riguroso de los experimentos de autocalibración.

No tiene sentido utilizar indicaciones postmortem bien diseñadas para guiar a los modelos a "autocorregir" las respuestas generadas a través de indicaciones previas deficientes.

Con el fin de hacer una comparación justa, se deben poner los mismos esfuerzos en las indicaciones previas y posteriores al evento.

Recursos:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)