RLHF ya no necesita humanos: una investigación del equipo de Google ha demostrado que la anotación mediante IA ha alcanzado el nivel humano

Fuente original: Xinzhiyuan

Fuente de la imagen: Generada por Unbounded AI‌

¿Es factible sustituir a los "seres humanos" en RLHF?

La última investigación del equipo de Google propone utilizar modelos grandes para reemplazar a los humanos en la anotación de preferencias, que es el aprendizaje por refuerzo de retroalimentación de IA (RLAIF).

Dirección del papel:

Se descubrió que RLAIF puede producir mejoras comparables a RLHF sin depender de anotadores humanos, con una tasa de éxito del 50%.

Al mismo tiempo, la investigación de Google demostró una vez más que RLAIF y RLHF tienen una tasa de ganancia de más del 70% en comparación con el ajuste fino supervisado (SFT).

Hoy en día, una parte fundamental de la formación de modelos de lenguajes grandes es RLHF. Los humanos hacen que las respuestas sean más útiles al calificar la calidad de los resultados de la IA.

Sin embargo, esto requerirá mucho esfuerzo, incluida la exposición de muchos anotadores al contenido dañino de la salida de IA.

Ahora que RLAIF es comparable a RLHF, los modelos futuros no requieren retroalimentación humana y también pueden mejorarse mediante un bucle automático.

RLHF ya no necesita humanos

Actualmente, RLHF se ha convertido en el método central para ajustar modelos grandes, incluidos ChatGPT, Bard y otros modelos que adoptan este paradigma.

Específicamente, RLHF se divide en tres pasos: entrenar previamente un LLM de ajuste fino supervisado; recopilar datos para entrenar un modelo de recompensa; ajustar el modelo con RL.

Con RLHF, se pueden optimizar modelos grandes para objetivos complejos a nivel de secuencia que son difíciles de distinguir para las SFT tradicionales.

Sin embargo, un problema muy real es que RLHF requiere datos etiquetados humanamente de alta calidad a gran escala y si estos datos pueden lograr un resultado superior.

Antes de este estudio de Google, los investigadores de Anthropic fueron los primeros en explorar el uso de preferencias de IA para entrenar modelos de recompensa ajustados de RL.

Primero propusieron RLAIF en "IA constitucional" y descubrieron que LLM era muy consistente con el juicio humano e incluso superaba a los humanos en algunas tareas.

Sin embargo, este estudio no comparó la retroalimentación de la inteligencia humana y la artificial, por lo que aún no se ha obtenido la respuesta final sobre si RLAIF puede reemplazar a RLHF.

Las últimas investigaciones de Google tienen como objetivo principal resolver este problema.

Los investigadores compararon directamente RLAIF y RLHF en la tarea de resumen del modelo.

Dado 1 texto y 2 respuestas de candidatos, utilice un LLM ya preparado para dar una anotación de preferencia.

Luego, se entrena un modelo de recompensa (RM) basado en las preferencias de LLM y las pérdidas contrastivas. Finalmente, el modelo de política se afina mediante el aprendizaje reforzado y el modelo de recompensa se utiliza para otorgar recompensas.

Entonces, ¿cuál es la diferencia entre el enfoque RLAIF propuesto por Google y Anthropic?

El propio Google explica en el texto,

  • Google: entrene un modelo de recompensa basado en preferencias etiquetadas por IA y luego realice ajustes de RL.

  • IA constitucional: mejorar los modelos de aprendizaje supervisado pidiendo iterativamente a LLM que genere mejores respuestas basadas en la constitución.

Autoetiquetado de IA, superación personal

¿Cuál es el proceso del método RLAIF propuesto por Google en las últimas investigaciones?

Modelo de lenguaje grande para anotación de preferencias

Los investigadores utilizaron un LLM "disponible en el mercado" para anotar las preferencias entre dos candidatos.

Este es un modelo previamente entrenado o ajustado por instrucciones para uso general, pero no ajustado para una tarea posterior específica. Dado un fragmento de texto y dos resúmenes candidatos, se le pide a LLM que califique qué resumen es mejor. La estructura de entrada de LLM es la siguiente:

1. Preámbulo

Instrucciones que introducen y describen la tarea en cuestión.

2. Múltiples instancias de muestra (opcional)

Un fragmento de texto, un par de resúmenes, la justificación de una idea y un juicio de preferencia.

3. Muestras para etiquetar

Un fragmento de texto y un par de resúmenes para anotar.

4.Fin

Solicitar la cadena final de LLM (como "Resumen preferido=")

Después de proporcionar información al LLM, los investigadores obtuvieron las probabilidades logarítmicas de generar los tokens "1" y "2" y calcularon softmax para obtener la distribución de preferencias.

Hay muchas formas de obtener anotaciones de preferencias de LLM, como decodificar respuestas de forma libre del modelo y extraer preferencias heurísticamente (por ejemplo, salida = "el primer resumen es mejor"), o representar la distribución de preferencias como una representación única ( uno -representación caliente). Sin embargo, los investigadores no probaron estas alternativas porque su método ya producía altos niveles de precisión.

Los investigadores experimentaron con dos tipos de preámbulos: el primero, "Base", que simplemente pregunta "¿qué resumen es mejor?", y el segundo, "OpenAI", que imita el enfoque utilizado para generar el conjunto de datos de preferencias OpenAI TL;DR. Instrucciones de calificación para etiquetadores de preferencias humanas con información detallada sobre lo que constituyen resúmenes sólidos. Como se muestra abajo.

Los investigadores también experimentaron con el aprendizaje contextual agregando una pequeña cantidad de muestras a las indicaciones, donde las muestras se seleccionaron manualmente para cubrir diferentes temas. Resolver desviación de posición.

Hallazgos anteriores sugieren que el orden en el que se presentan los candidatos al LLM puede afectar qué candidato prefiere el LLM. Los investigadores encontraron evidencia de este sesgo posicional, especialmente para los LLM anotados de menor tamaño.

Para mitigar el sesgo posicional en la anotación de preferencias, realizamos dos inferencias en cada par de candidatos, invirtiendo el orden en que los candidatos se envían a LLM. Luego se promedian los resultados de las dos inferencias para obtener la distribución de preferencias final.

Razonamiento en cadena de pensamiento

Los investigadores intentaron obtener razonamiento en cadena de pensamiento (COT) de los anotadores de IA para mejorar la coherencia con las preferencias humanas.

Los investigadores reemplazan las indicaciones finales estándar (por ejemplo, reemplazan "Resumen preferido=" por "Considere la coherencia, precisión, cobertura y calidad general de cada resumen y explica cuál es mejor. Justificación:") y luego decodifican una respuesta de LLM. .

Finalmente, los investigadores concatenan el mensaje original, la respuesta y la cadena final original "Resumen preferido=" y siguen el procedimiento de puntuación de la Sección 3.1 para obtener la distribución de preferencias. Consulte la figura siguiente para conocer el proceso específico.

En indicaciones de muestra cero, LLM no ofrece ningún ejemplo de cómo debería ser la inferencia, mientras que en indicaciones de pocas muestras, los investigadores proporcionan ejemplos de inferencia COT para que el modelo siga. Vea la imagen a continuación para ver un ejemplo.

### Autoconsistencia

Para el mensaje de la cadena de pensamiento, los investigadores también experimentaron con la autoconsistencia, una técnica que mejora el razonamiento de la cadena de pensamiento al tomar muestras de múltiples rutas de razonamiento y agregar la respuesta final producida al final de cada ruta.

Utilice una temperatura de decodificación distinta de cero para muestrear los fundamentos de múltiples cadenas de pensamiento y luego obtenga la distribución de preferencias LLM de cada cadena de pensamiento de acuerdo con el método de la sección anterior. Luego se promedian los resultados para obtener la distribución de preferencias final.

Aprendizaje reforzado con retroalimentación de IA

Después de que LLM anota las preferencias, se entrena un modelo de recompensa (RM) para predecir las preferencias. Dado que el método de los investigadores produce etiquetas suaves, adoptan la pérdida de entropía cruzada del softmax de la puntuación de recompensa generada por RM en lugar de la pérdida mencionada en el modelo de recompensa.

Softmax convierte puntuaciones ilimitadas de RM en distribuciones de probabilidad.

El entrenamiento de RM en conjuntos de datos etiquetados con IA puede verse como una forma de destilación de modelos, especialmente porque los etiquetadores de IA de los investigadores suelen ser más grandes y más potentes que los RM.

Otro enfoque es omitir el RM y utilizar directamente la retroalimentación de la IA como señal de recompensa en RL, aunque este enfoque es más costoso desde el punto de vista computacional ya que el etiquetador de la IA es más grande que el RM.

Con el RM entrenado, los investigadores realizaron un aprendizaje por refuerzo utilizando una versión modificada del algoritmo Advantage Actor Critic (A2C) adaptado al campo del modelado del lenguaje.

evaluar

Los investigadores evaluaron sus resultados a través de tres métricas: alineación del anotador de IA, precisión del emparejamiento y tasa de victorias.

La alineación del anotador de IA se utiliza para medir la precisión de las preferencias de anotación de IA en relación con las preferencias humanas.

Por ejemplo, convierta las preferencias suaves anotadas por IA en una representación binaria. Se asigna 1 si la anotación es consistente con la preferencia humana objetivo; de lo contrario, se asigna 0.

La precisión por pares es una medida de la precisión de un modelo de recompensa entrenado en relación con un conjunto de preferencias humanas retenidas.

Dado un contexto compartido y un par de respuestas de candidatos, la precisión del emparejamiento es 1 si el RM puntúa al candidato preferido más alto que al candidato no preferido según la anotación humana. De lo contrario el valor es 0. Esta cantidad se promedia en varios ejemplos para medir la precisión general del RM.

El índice de ganancia evalúa la calidad de un extremo a otro de dos estrategias midiendo la frecuencia con la que los humanos prefieren una estrategia a la otra.

Dada una entrada y dos resultados generados, un anotador humano elige qué resultado generado prefiere. El porcentaje de casos en los que la estrategia A es mejor que la estrategia B se denomina "tasa de victoria de A frente a B".

Detalles del experimento

Los investigadores utilizaron un conjunto de datos filtrado de Reddit TL;DR curado por OpenAI. TL;DR Contiene alrededor de 3 millones de publicaciones de Reddit sobre diversos temas (también conocidos como "subreddits"), así como resúmenes de publicaciones escritas por los autores originales.

OpenAI también filtra los datos para garantizar una alta calidad, lo que incluye el uso de una lista blanca de temas de Reddit que el público en general pueda entender.

Además, sólo se incluyeron publicaciones con entre 24 y 48 anotaciones en el resumen. El conjunto de datos filtrado contiene 123.169 publicaciones, aproximadamente el 5% de las cuales sirve como conjunto de validación.

Se pueden encontrar más detalles sobre el conjunto de datos en el artículo original. Además, OpenAI seleccionó un conjunto de datos de preferencias humanas a partir del conjunto de datos TL;DR filtrado.

Para una publicación determinada, se generan dos resúmenes de candidatos basados en diferentes estrategias y se pide a los anotadores que califiquen su resumen preferido. El conjunto de datos total contiene aproximadamente 92.000 comparaciones por pares.

Anotaciones LLM

Para evaluar la efectividad de las técnicas de anotación de IA (por ejemplo, sugerencias, autoconsistencia), los investigadores seleccionaron ejemplos del conjunto de datos de preferencias de TL;DR, donde los anotadores humanos preferirían resúmenes con mayor confianza.

Los investigadores evaluaron la alineación del anotador de IA en un subconjunto aleatorio del 15 % de la división de entrenamiento del conjunto de datos para permitir iteraciones experimentales más rápidas, generando 2851 ejemplos de evaluación.

Para el entrenamiento del modelo de recompensa, LLM anota las divisiones de entrenamiento completas del conjunto de datos de preferencias TL;DR y las utiliza para el entrenamiento independientemente de la puntuación de confianza.

Entrenamiento modelo

Los investigadores entrenaron el modelo SFT en el conjunto de datos TL;DR filtrado por OpenAI utilizando PaLM 2 Extra-Small (XS) como punto de control inicial.

Luego, los investigadores inicializan los RM del modelo SFT y los entrenan en el conjunto de datos de preferencia humana TL;DR de OpenAI.

Para los resultados de las Tablas 1 y 5.1, los investigadores utilizaron PaLM 2L para generar preferencias anotadas por IA, utilizando sugerencias "OpenAI + COT 0-shot" (, sin autoconsistencia, y luego entrenaron el conjunto de datos de RM en las preferencias completas.

Para el aprendizaje por refuerzo, los investigadores utilizaron Advantage Actor Critic (A2C) para entrenar la política. Tanto el modelo de estrategia como el de valor se inicializan a partir de modelos SFT. Los investigadores utilizaron el conjunto de datos filtrado de Reddit TL;DR como estado inicial para lanzar su estrategia.

Evaluación de clase humana

Los investigadores recopilaron 1200 calificaciones humanas para evaluar las estrategias RLHF y RLAIF. Para cada tarea de calificación, los evaluadores reciben una publicación y 4 resúmenes generados de acuerdo con diferentes estrategias (uno para RLAIF, uno para RLHF, SFT y referencia humana) y se les pide que los clasifiquen en orden de calidad, sin ningún vínculo.

Las publicaciones se toman del conjunto de datos reservados del conjunto de datos de ajuste fino supervisado por TL;DR, que no se utilizó para ninguna otra evaluación. Una vez recopiladas estas clasificaciones, se puede calcular la tasa de ganancia de dos estrategias cualesquiera.

50% de tasa de victorias, empate

RLAIF frente a RLHF

Al comienzo del artículo, presentamos las ventajas de la comparación de Google entre RLAIF y RLHF. Los resultados muestran que los dos métodos tienen un rendimiento similar.

Específicamente, los evaluadores humanos prefirieron RLAIF en comparación con el SFT inicial el 71 % de las veces. RLHF supera a SFT el 73% de las veces.

Los investigadores también compararon directamente las tasas de ganancia de RLAIF y RLHF y descubrieron que eran igualmente populares, es decir, ambos tenían una tasa de ganancia del 50 %.

Para comprender mejor las diferencias entre estas dos estrategias, Google realizó una comparación cualitativa de los fragmentos que generaron.

Además, compararon los resúmenes de RLAIF y RLHF con resúmenes de referencia escritos por humanos. RLAIF produjo resúmenes mejores que los resúmenes de referencia el 79% de las veces, y los resultados de RLHF superaron a los resúmenes de referencia el 80% de las veces.

Se puede ver que la diferencia en la tasa de ganancia entre RLAIF y RLHF y el resumen de referencia es solo del 1% y no hay una diferencia significativa.

Vale la pena señalar que los investigadores también encontraron que la frecuencia de alucinaciones en la estrategia RLHF es a menudo mayor que en RLAIF, como se muestra en el texto rojo en la tabla anterior.

Después de controlar la duración del resumen, las estrategias RLAIF y RLHF aún superan a la SFT de referencia y logran tasas de ganancia similares.

Estos resultados demuestran que RLAIF no necesita depender de la anotación humana y es una alternativa viable a RLHF.

Consejos y trucos

En el uso de técnicas de sugerencias, el equipo de Google probó tres tipos de técnicas de sugerencias: especificidad de preámbulo, CoT y aprendizaje de contexto de pocas muestras.

Se descubrió que con indicaciones detalladas del preámbulo de OpenAI e inferencia CoT, el anotador de IA podía lograr una coherencia del 78%.

Mientras que el aprendizaje contextual no mejora la precisión e incluso puede empeorarla.

### autoconsistencia

Los investigadores realizaron experimentos de autoconsistencia utilizando 4 y 16 muestras, con una temperatura de decodificación de 1.

Al muestrear múltiples principios de cadenas de pensamiento con T = 1, los resultados son menos consistentes con las preferencias humanas.

### El tamaño del anotador del modelo grande.

El estudio también encontró que aumentar el tamaño del parámetro de los anotadores de modelos grandes puede producir anotaciones de preferencias de mayor calidad.

Número de ejemplos preferidos

¿Cómo cambia la precisión del modelo de recompensa con los ejemplos de entrenamiento?

Los investigadores descubrieron que después de entrenar con miles de ejemplos, el rendimiento del modelo de recompensa era cercano al del entrenamiento con el conjunto de datos completo.

en conclusión

Los investigadores demostraron que RLAIF puede producir mejoras comparables a RLHF sin depender de anotadores humanos.

Aunque este trabajo destaca el potencial de RLAIF, todavía existen algunas limitaciones.

En primer lugar, este estudio solo exploró la tarea de resumen y se necesita más investigación sobre la generalización a otras tareas.

En segundo lugar, los investigadores no estimaron si la inferencia LLM es más ventajosa que la anotación manual en términos de costo económico.

Además, hay algunas preguntas interesantes que vale la pena investigar, como si RLHF combinado con RLAIF puede superar a un solo método, qué tan efectivo es usar LLM para asignar recompensas directamente, si una mejor alineación del etiquetador de IA se traducirá en mejores políticas finales y si el uso de un anotador LLM del mismo tamaño que el modelo de política puede mejorar aún más la política (es decir, si el modelo puede "automejorarse").

Discusión candente de internautas

Google publicó dos artículos sobre RL:

  1. RLAIF: Entrenamiento de modelos de recompensa similares a la retroalimentación humana

  2. ReST: Facilitar la autoformación mediante modelos generativos La combinación de estos dos artículos puede satisfacer algoritmos de IA ávidos de datos

Hace medio mes, Google DeepMind acaba de proponer un nuevo algoritmo ReST para hacer que los modelos de lenguaje a gran escala sean consistentes con las preferencias humanas.

Específicamente, a través de métodos de aprendizaje por refuerzo fuera de línea, se mejora la calidad de la traducción de modelos de lenguaje grandes para satisfacer mejor las preferencias humanas.

Según las pruebas cualitativas, el modelo Claude de Anthropic parece ser más débil que el GPT-4, según un investigador. Esto puede deberse a los métodos RLHF/RLAIF o al entrenamiento previo. No está claro si estos métodos se generalizan mejor en aplicaciones del mundo real, incluso si funcionan mejor en los puntos de referencia académicos.

No diría que esto reduce la importancia de la anotación humana, pero una cosa es segura: la RL con retroalimentación de inteligencia artificial puede reducir los costos. La anotación manual sigue siendo extremadamente importante para la generalización y el método híbrido RLHF+RLAIF es mejor que cualquier método único.

La mayoría de los internautas piensan que el documento es un gran avance, pero algunos piensan que no parece haber una diferencia esencial entre este y el RLAIF en Constitute Claude propuesto por Anthropic hace unos meses.

Referencias:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)