Las alpacas se convierten en ballenas, Meta "automatiza" la alineación y Humpback derrota a todos los modelos LLaMa existentes

Editores: Xiaozhou, Chen Ping

**Fuente:**El corazón de la máquina

El año pasado, el modelo de lenguaje grande (LLM) representado por ChatGPT y GPT-4 se desarrolló rápidamente, seguido por los modelos de código abierto LLaMa y Llama 2 series de Meta, que también causaron un gran revuelo en el mundo de la IA. . Pero lo que siguió fue una controversia constante.Algunas personas creían que LLM tenía algunos riesgos incontrolables, lo que representaba algunas amenazas potenciales para la supervivencia humana.

Para hacer frente a estos desafíos, la investigación sobre la alineación LLM se ha vuelto cada vez más importante.Algunos investigadores han propuesto el seguimiento de instrucciones (instructionfollowing), pero este método requiere mucha anotación manual. Sin embargo, anotar estos conjuntos de datos de seguimiento de instrucciones de alta calidad es costoso.

En este artículo, los investigadores de Meta AI proponen un método escalable llamado traducción inversa de instrucciones, que crea un modelo de lenguaje de seguimiento de instrucciones de alta calidad al anotar automáticamente las instrucciones correspondientes.

Dirección en papel:

Específicamente, el estudio comienza con un modelo de lenguaje como modelo semilla, que se ajusta con precisión en una pequeña cantidad de datos semilla, así como corpus web. La función del modelo inicial es crear muestras de entrenamiento, y luego se seleccionarán algunas muestras de alta calidad de estas muestras, y luego estos datos se utilizarán para ajustar un modelo más potente.

Después de dos rondas de ajustes iterativos de conjuntos de datos LLaMa, el modelo resultante Humpback supera a otros modelos existentes no destilados como LIMA, Claude, Guanaco, etc. en la tabla de clasificación de Alpaca.

Humpback originalmente significaba una ballena jorobada, también conocida como ballena jorobada. Meta nombró al modelo Humpback, por lo que no hay un significado profundo.

La razón por la que se llama retrotraducción de instrucciones, dijeron los investigadores, es que se basa en el método clásico de retrotraducción en la traducción automática, en el que la oración de destino escrita por humanos se anota automáticamente con la oración de origen en otro idioma generado por el modelo. .

El ganador del premio Turing, Yann LeCun, brindó una descripción general de alto nivel de la metodología del estudio y elogió el trabajo de Meta como una contribución importante a la investigación de la alineación:

Algunos internautas hicieron un buen resumen de esta investigación: la calidad de los datos es realmente importante para los modelos grandes. Durante el proceso de investigación, utilizaron diferentes niveles de datos filtrados para afinar un modelo. Los resultados mostraron que solo las mejores muestras para obtener un modelo que funciona mejor que otras muestras.

Este documento propone un nuevo paradigma de aumento de datos que debe completarse en dos pasos. Primero, es necesario tener un conjunto de pares semilla (instrucción, salida) y un corpus para generar más datos de instrucción buenos.

La siguiente figura compara Humpback con algunos modelos propietarios y de código abierto.

La Tabla 4 a continuación muestra que nuestro método funciona mejor entre los modelos no destilados en las escalas de modelos 65B y 33B.

Veamos el método específico a continuación.

Introducción al método

El estudio propone un enfoque de autoformación que generalmente asume el acceso a un modelo de lenguaje básico, una pequeña cantidad de datos iniciales y un conjunto de muestras sin etiquetar (como un corpus web). Los datos no etiquetados son a menudo una gran colección de documentos de varias formas, escritos por humanos, que incluyen contenido sobre varios temas de interés humano, pero lo más importante es que no se han combinado con instrucciones.

Hay dos suposiciones clave aquí: la primera suposición es que hay algunos subconjuntos de este conjunto de texto muy grande (conjunto de muestra sin etiquetar) que son adecuados como muestras generadas para algunas instrucciones de usuario. La segunda hipótesis es que las instrucciones de estas respuestas candidatas se pueden predecir, lo que se puede usar para formar pares de muestras de alta calidad para entrenar modelos de seguimiento de instrucciones.

Como se muestra en la Figura 1 a continuación, el estudio propone que el proceso de retrotraducción de instrucciones incluya dos pasos principales:

  • Autoaumentación: genere instrucciones para datos no etiquetados (es decir, corpus web) para generar pares de datos de entrenamiento (instrucción-salida) para el ajuste de instrucciones.
  • Autogestión: seleccione de forma independiente datos de muestra de alta calidad como datos de entrenamiento para ajustar el modelo básico para seguir las instrucciones. Este método se realiza de forma iterativa.

Entre ellos, los pasos de autogestión adoptados se muestran en la Tabla 1 a continuación:

Experimento y resultados

El conjunto de datos de este documento incluye principalmente datos semilla y datos mejorados. La información específica se muestra en la Tabla 2 y la Figura 2:

La Figura 3 muestra que los datos aumentados sin autocuración utilizados para entrenar el modelo no mejoran la instrucción después del rendimiento a pesar del aumento del tamaño de los datos.

La siguiente figura compara la eficiencia de datos de diferentes conjuntos de datos de ajuste de instrucciones.

Expansión conjunta de datos y modelos: el estudio encuentra que las tendencias de expansión de datos observadas en el modelo 7B también se aplican a modelos más grandes. Por ejemplo, agregar datos de aumento de alta calidad al modelo semilla 65B traerá más mejoras.

Razonamiento de sentido común: el estudio se probó en cinco puntos de referencia de razonamiento de sentido común, SIQA, PIQA, Arc-Easy, Arc-Challenge y Openbook QA (OBQA), y los resultados se resumen en la Tabla 5. Los resultados muestran que, en comparación con el modelo base, el rendimiento de nuestro modelo ha mejorado en varios aspectos, como el razonamiento social.

MMLU: La Tabla 6 resume los resultados de diferentes modelos en MMLU (comprensión lingüística multitarea masiva). Nuestro modelo perfeccionado mejora la precisión de disparo cero en comparación con el modelo base, pero tiene un rendimiento deficiente en el ejemplo de contexto de 5 muestras.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)