La precisión de la información de texto largo supera a ChatGPT y Meta propone un nuevo método para reducir la ilusión de modelos grandes

Fuente: Qubits

¡Existe una nueva solución al problema de las alucinaciones de las modelos grandes!

Meta AI Labs propone una solución de “divide y vencerás”.

Con esta solución, la precisión de la producción de información de Llama-65B se ha duplicado, superando incluso a ChatGPT.

La llamada ilusión del modelo grande consiste en generar contenido que parece razonable pero que es completamente incorrecto.

La “Cadena de Verificación” (CoVe) propuesta por Meta esta vez es un método de cadena similar a la “Cadena de Pensamiento” (CoT).

La diferencia es que la cadena de pensamiento "paso a paso" se centra más en el razonamiento lógico, mientras que la cadena de verificación se centra más en información objetiva**.

Después de leerlo, algunos internautas descubrieron que esta cadena de verificación es muy similar a un método científico al escribir código usando ChatGPT:

Entonces, ¿qué es exactamente el método de "cadena de verificación" y qué es la "verificación"?

Desmonta la respuesta, divide y vencerás

La idea central de la cadena de verificación es dividir una gran parte del contenido que se va a verificar en pequeños problemas, el proceso específico es el siguiente:

Primero, el modelo genera respuestas como de costumbre en función de la pregunta formulada por el usuario.

Luego, en función del contenido de la respuesta generada, se generan una serie de preguntas de verificación para cada información.

Luego se permite que el modelo responda estas preguntas por sí solo y las respuestas iniciales se ajustan en función de los resultados para llegar al resultado final.

Para dar un ejemplo simple, supongamos que desea preguntarle al modelo cuáles fueron las principales causas de la guerra entre Estados Unidos y México en el siglo XIX.

El modelo responde cuándo ocurrió el evento y qué pasó antes.

Luego, para esta serie de eventos, pregúnteles uno por uno cuándo sucedieron.

Como resultado, el modelo encontró que el tiempo de uno de los ítems que mencionaba estaba demasiado alejado y lo ajustó para dar la respuesta final.

Entre ellos, la generación y verificación de preguntas es la parte más crítica, para lo cual los investigadores han propuesto cuatro métodos específicos:

*Conjunto, es decir, escribir instrucciones para generar preguntas y respuestas en la misma palabra clave.

  • 2 pasos, es decir, primero dejar que el modelo genere preguntas y luego abrir una nueva conversación (una sola vez) para responder las preguntas planteadas.
  • Factorizado, basado en 2-Step, abre un nuevo diálogo para cada pregunta planteada.
  • Factor+Revise, agrega pruebas de coherencia sobre la base de Factored, lo que permite que el modelo se centre en contenido incoherente.

Estos cuatro modos son cada vez más refinados y su precisión es cada vez mayor.

###### A partir del rojo, los cuatro colores no representan CoVe, Joint, Factored y Factor+Revise en orden

Entonces, ¿por qué dividir las preguntas puede mejorar la precisión del modelo?

En primer lugar, debido a que las preguntas separadas son más fáciles que la tarea general, las preguntas de ensayo se convierten en preguntas y respuestas o incluso preguntas de opción múltiple y juicio. Las preguntas son más simples y la tasa de precisión mejora.

Además, desglosar el problema permite al modelo repensar verdaderamente el problema en lugar de repetir la respuesta incorrecta una y otra vez.

Entonces, ¿cuál es el efecto del método de la cadena de verificación?

La precisión de la información supera a ChatGPT

Para explorar este problema, los investigadores utilizaron Llama para realizar una prueba con un total de tres tareas de prueba.

La primera es la enumeración de información, como enumerar celebridades que nacieron en un lugar determinado y se dedican a una industria determinada.

En esta tarea, los investigadores probaron un total de dos conjuntos de datos: el Wikidata más simple y la lista Wiki-Category más difícil (extraída de Wikipedia).

Se descubrió que con el apoyo de la cadena de verificación de dos pasos de Llama con parámetros 65B, la precisión de las preguntas simples aumentó de 0,17 a 0,36, más del doble de la precisión, y la precisión de las preguntas complejas también casi se duplicó.

La siguiente es la pregunta "Pregunta y respuesta de dominio cerrado". Los investigadores extrajeron información discontinua múltiple del conjunto de datos MultiSpanQA e hicieron preguntas.

Por ejemplo, "Quién fundó la primera editorial del mundo en qué año" (la respuesta es Johannes Gutenberg, 1450).

Como resultado, Cove también supuso una mejora del 20% en la precisión de Llama.

La tercera tarea es "Generación de biografías de texto largo", la pregunta es "Dime una biografía de (nombre de la persona)", que se evalúa utilizando el conjunto de datos FactScore.

Como resultado, en el modo Factor+Reviese, la tasa de precisión no solo es significativamente mayor que la del modo de cadena sin verificación, sino que también supera a ChatGPT.

Los amigos que estén interesados en esta investigación pueden conocer más detalles en el artículo.

Dirección del papel:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)