Vuelva a entrenar un modelo grande con un token de pausa y la IA aprenderá a pensarlo dos veces

2023-10-15 04:52:39

Fuente: Qubits

Pensar más en los pasos antes de que ChatGPT dé una respuesta puede mejorar la precisión.

Entonces, ¿puedes saltarte el mensaje e internalizar directamente esta habilidad en el modelo grande?

El nuevo estudio realizado por CMU y el equipo de Google agrega un token de pausa al entrenar modelos grandes para lograr esto.

En el experimento, las puntuaciones de 8 evaluaciones mejoraron, entre las cuales la puntuación EM de SQuAD aumentó en un 18%, la de CommonSenseQA aumentó en un 8% y la tarea de inferencia en GSM8k también aumentó en un 1%.

El investigador Jack Hack dijo que se le había ocurrido una hipótesis similar no hace mucho tiempo y que se alegró de verla probada.

El ingeniero de Nvidia, Aaron Erickson, dijo que ¿es cierto agregar "uh-huh-ah" cuando se habla con humanos?

Los ajustes finos previos al entrenamiento se agregan al token de pausa

Todo el estudio se basa en una idea simple:

Anexe una serie (token de pausa) a la secuencia de entrada, lo que retrasa la salida del siguiente token del modelo.

Esto puede dar al modelo tiempo computacional adicional para procesar entradas más complejas.

Los autores no solo lo introducen cuando se ajusta la tarea posterior, sino que también lo insertan aleatoriamente en la secuencia durante el entrenamiento previo, lo que permite que el modelo aprenda a aprovechar este retraso computacional en ambas etapas.

En la etapa de preentrenamiento, un cierto porcentaje de tokens de pausa se insertan aleatoriamente en el corpus en la secuencia de entrada para el preentrenamiento autorregresivo estándar. Sin embargo, la predicción del token suspendido se omite al calcular la pérdida.

Cuando se ajusta la tarea descendente, se anexa un cierto número de tokens de pausa a la entrada y, a continuación, se realiza una predicción autorregresiva en la secuencia de destino, al tiempo que se ajustan los parámetros del modelo.

La fase de inferencia también anexa el mismo número de tokens de pausa, pero omite la salida del modelo hasta el último token de pausa y, a continuación, comienza a extraer la respuesta.

El experimento utiliza el modelo estándar de decodificador puro Transformer, que se divide en dos versiones: parámetro 130M y parámetro 1B.

El token de pausa solo agrega 1024 parámetros, que es su propio tamaño de incrustación.

Los experimentos en 9 tareas diferentes mostraron que el efecto de introducir tokens de pausa solo durante la fase de ajuste fino no era obvio, y algunas tareas no mejoraron.

Pero si usa tokens de pausa tanto en la fase de preentrenamiento como en la de ajuste, obtendrá una mejora significativa en la mayoría de las tareas.

El documento también explora hiperparámetros clave, como el número y la ubicación de los tokens suspendidos. Se comprobó que suele haber una cantidad óptima para los diferentes modelos.

Por último, los autores también señalan que este trabajo también tiene una serie de limitaciones.

Dado que el token de suspensión aumenta la cantidad de cálculo del modelo, queda por discutir si es justo compararlo con otros métodos
El nuevo método necesita ser re-entrenado previamente, y todavía es difícil aplicarlo en la práctica
Todavía no se conocen en profundidad los mecanismos de trabajo específicos
Si el número de tokens de pausa es 0 durante la inferencia, el modelo sigue teniendo un rendimiento deficiente

El CEO del motor de búsqueda You.com dijo que el siguiente paso es probar todas las técnicas para mejorar el rendimiento cognitivo humano en modelos grandes.

Ahora está "pensar paso a paso" y "respirar hondo".

Tal vez el próximo artículo de gran éxito sea enseñar a las grandes modelos a dormir con problemas, o más escandalosamente saludables a comer y hacer ejercicio.

Dirección del papel:

Enlaces de referencia:
[1]

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1CandyDrop Airdrop Event 6.0
17k Popularidad
2White House Crypto Report
35k Popularidad
3Join Alpha RION Airdrop to Earn $40
9k Popularidad
4Fed Holds Rates Decision
8k Popularidad
5July Spark Program TOP 10 Creators Announced
2k Popularidad

Anclado