Bytes le dio a OpenAI todos los modelos grandes una operación de "unboxing".
Los resultados realmente descubrieron el papel específico y el impacto de algunas tecnologías clave en la evolución de GPT-4.
Como qué:
SFT fue el facilitador de la evolución de los primeros GPT
Los mayores contribuyentes a las capacidades de codificación de GPT son SFT y RLHF
Agregar datos de código al pre-entrenamiento mejora la capacidad de las versiones posteriores de GPT en todos los aspectos, especialmente la inferencia...
Después de iniciar un negocio, el toro de IA Li Mu, que estaba muy ocupado, también apareció en el ojo público después de mucho tiempo y elogió esta investigación.
Los internautas incluso elogiaron:
Este es el primer trabajo hasta la fecha que desempaqueta completamente todos los modelos de OpenAI, respeto.
Además de algunos nuevos descubrimientos, también confirma algunas conjeturas existentes:
Por ejemplo, GPT-4 no es alarmista a la hora de volverse estúpido, y esta evaluación encontró que hay un obvio "fenómeno de balancín" en el camino de la evolución de GPT, es decir, algunas habilidades aumentan y otras disminuyen durante la evolución del modelo.
Esto coincide con los sentimientos previos de los internautas.
Como dice el propio autor:
Este trabajo podría proporcionar información valiosa sobre el camino evolutivo de GPT-3 a GPT-4.
En otras palabras, a través de él, podemos vislumbrar el "camino del éxito" del modelo GPT y proporcionar una experiencia efectiva para el próximo trabajo de construcción de modelos a gran escala.
Entonces, ¿qué es exactamente lo que "abre?", echemos un vistazo al papel.
Explorando la evolución de GPT-3 a GPT-4
El primer diagrama evolutivo fue resumido por los autores basándose en la información disponible públicamente.
Como puedes ver, marca qué tecnologías ha experimentado cada modelo intermedio (como el ajuste fino de código, SFT/FeedME, etc.) que han evolucionado desde el GPT-3 original hasta el 3.5 y ahora al 4.
Desde davinci hasta gpt-4-0613, bytes ha probado las 7 habilidades principales de cada generación de GPT, como las matemáticas, la codificación y el razonamiento.
### 1. SFT: El facilitador de la evolución temprana de GPT
En primer lugar, en la familia GPT-3, el davinci original (GPT-3) evolucionó hasta convertirse en text-davinci-001 supervisando el ajuste fino de SFT y su variante, FeedME.
Esto le da a este último un aumento del rendimiento en casi todas las tareas:
Una representación más intuitiva se muestra en la siguiente figura (el "fandom" es el text-davinci-001 evolucionado).
GPT luego pasó a la serie 3.5, donde el código más básico, davinci002, evolucionó a text-davinci-002 utilizando la misma tecnología.
Sin embargo, el efecto de esta operación evolutiva no es realmente grande, y el rendimiento de GPT solo se ha mejorado unas pocas veces, y más no ha aumentado, sino que ha disminuido.
Aquí, los autores conducen a su primera conclusión, a saber:
SFT solo funciona en modelos base más débiles y tiene poco efecto en modelos más fuertes.
Un fenómeno similar se puede ver en modelos de código abierto (esta revisión también probó Llama1 y 2, PaLM2-L, Claude 2, etc.):
Además del Llama-65B original, SFT logró mejorar su rendimiento en el punto de referencia MMLU, pero todos los Llama2-70B que utilizaron mejoras de SFT mostraron solo mejoras menores en la tabla de clasificación de Open LLM.
Resumen: En la etapa GPT3, la tecnología SFT jugó un papel clave en la evolución del modelo.
2, RLHF y SFT: Contribuyentes a la mejora de la capacidad de codificación
Después de la serie GPT3.5, a partir de text-davinci-002, OpenAI comenzó a introducir una nueva tecnología basada en el algoritmo PPO RLHF, lo que dio como resultado text-davinci-003.
En este punto, su rendimiento en la mayoría de los puntos de referencia está a la par o ligeramente peor que su predecesor, lo que indica que el efecto no es particularmente obvio (y lo mismo ocurre con los modelos de código abierto).
Con una excepción: la tarea de codificación, que aumentó en casi 30 puntos.
Con reminiscencias del código anterior-davinci002 que usaba la tecnología SFT para evolucionar a text-davinci-002, lo que provocó que el rendimiento general disminuyera, la tarea de codificación no se vio afectada, pero la puntuación aumentó...
Los autores decidieron verificar el efecto de SFT y RLHF en la capacidad de codificación de modelos grandes.
Aquí, midieron puntuaciones como pass@1 (probabilidad de 1 pasada de 1 muestra), pass@100 (probabilidad de 100 pasadas de 100 muestras) de varias generaciones de modelos GPT.
Como resultado, el modelo que utiliza tecnología SFT y RLHF mostró una mejora significativa en pass@1 y una ligera disminución en pass@100 en comparación con el modelo base.
¿Qué significa esto?
El autor explica:
pass@100 describe la capacidad de codificación intrínseca del modelo, mientras que pass@1 representa la capacidad de codificación única y sin errores del modelo.
pass@100 ligera disminución sugiere que SFT y RLHF todavía tienen el llamado impuesto de alineación en las tareas de codificación, al igual que cualquier otra tarea.
Sin embargo, SFT y RLHF han sido capaces de aprender habilidades pass@1 pass@100, es decir, transformar habilidades intrínsecas (pero requieren muchos intentos) en una codificación única y sin errores, lo que resulta en un aumento significativo de pass@1.
Mirando los resultados cuidadosamente, podemos ver que gpt-3.5-turbo-0301 mejora en gran medida el pass@1 a través de SFT y RLHF, lo cual es una buena noticia para la optimización del rendimiento de los modelos pequeños.
Y eso no es todo, dado que los autores han observado previamente que GPT-4 fue capaz de resolver el problema después de varios intentos en algunas tareas de inferencia complejas.
Combinado con las observaciones anteriores, lo resumieron como:
Los LLM aún pueden usar SFT y RLHF para transformar continuamente sus capacidades intrínsecas (pero requieren múltiples intentos) en capacidades de resolución de problemas de una sola vez, acercándose al límite superior de las capacidades de los LLM.
La implicación es que GPT-4 puede ser aún más fuerte.
3. El código se agrega al entrenamiento previo, que es el más útil para la inferencia
En el camino de la evolución de GPT4, también han surgido 2 modelos especiales:
code-cushman-001 (Codex-12B) 和code-davinci-002。
El primero es el primer intento de OpenAI de entrenar un modelo utilizando datos de código y, a pesar de su pequeña escala, también ha logrado buenas capacidades de código.
Este último es el modelo base de GPT3.5, que es el resultado de un entrenamiento con código RLHF+ sobre la base de GPT3, es decir, un pre-entrenamiento híbrido de texto y código.
Se puede ver que supera con creces a GPT-3 (no solo en capacidad de codificación), e incluso supera a GPT-3.5-turbo-0613 en algunas tareas de inferencia (como BBH).
Los autores afirman:
Esto demuestra que la adición de datos de código al entrenamiento previo puede mejorar de manera integral las capacidades de los LLM, especialmente la inferencia.
4, fenómeno "balancín"
Al comparar los modelos de API de OpenAI de marzo de 2023 y junio de 2023, podemos ver este fenómeno:
En comparación con gpt-3.5-turbo-0301, el gpt-3.5-turbo-0613 actualizado funciona bien en humanos (53.9 -> 80.0), pero cae significativamente en MATH (32.0 -> 15.0).
GPT-4-0613 superó a GPT-4-0314 (78,7 -> 87,2) en DROP, pero también experimentó una caída en picado (82,2 -> 68,7) en MGSM.
Según los autores:
El "fenómeno del balancín" puede convertirse en un obstáculo en el camino hacia la AGI para los LLM, porque la AGI enfatiza la "inteligencia general" y requiere un excelente desempeño en todas las tareas, lo que requiere que los modelos no estén "sesgados".
Aquí, también hicieron un llamado a la comunidad para que preste atención a este tema y promuevan conjuntamente la investigación sobre el desarrollo equilibrado de grandes modelos.
Ayuda a los grandes modelos a encontrar su camino
Todos los hallazgos anteriores se basan en GPT-Fathom -
Byte propuso recientemente una gran herramienta de evaluación de modelos.
Presumiblemente, todo el mundo debe tener preguntas:
Ya hay muchos grandes rankings de modelos y herramientas de evaluación, así que ¿por qué idear un nuevo enfoque?
Según los autores, en comparación con los métodos de evaluación existentes, la escala GPT-Fathom es más uniforme y los resultados son reproducibles.
Los profesionales de los grandes modelos pueden utilizarlo para aclarar dónde está la brecha entre ellos y el modelo líder, con el fin de mejorar sus productos de forma específica.
En concreto, GPT-Fathom resuelve principalmente tres deficiencias de otros métodos de evaluación de grandes modelos:
Criterios de configuración inconsistentes: No existe un estándar unificado para usar configuraciones como la cadena de pensamiento (CoT), el tamaño de la muestra, etc., y los métodos de evaluación de respuestas
Colección incompleta de modelos y tareas: La capacidad de evaluar la atención no es exhaustiva y hay una falta de enfoque en los modelos anteriores
Falta de investigación sobre la sensibilidad del modelo
Con el fin de reflejar de forma más intuitiva las características de GPT-Fatham, el autor compara algunas listas específicas existentes, que se pueden resumir en la siguiente tabla:
Entre ellos, la evaluación de sensibilidad encontró problemas que los estándares de prueba anteriores no identificaron.
En comparación con GPT, otros modelos son muy sensibles a las palabras rápidas, y un ligero cambio conducirá a un resultado completamente diferente, lo que sugiere que todavía hay una gran brecha entre la robustez de otros modelos y GPT.
Por ejemplo, en el conjunto de datos TriviaQA, un ligero cambio en la palabra prompt redujo la puntuación de Llama 2-70B en una cuarta parte, mientras que los modelos de la serie GPT no cambiaron significativamente.
Además, en las pruebas de sensibilidad también se incluyen factores como el CoT, el tamaño de la muestra y la varianza del muestreo.
En el futuro, los autores planean continuar expandiendo GPT-Fathom desde tres dimensiones: tipos de capacidad, conjuntos de datos de prueba y modelos, y apoyarán la evaluación del diálogo de múltiples rondas, la multimodalidad y otras capacidades, así como aumentar las pruebas de múltiples conjuntos de datos y modelos.
Los dos coautores de GPT-Fatham son Yuyu Zhang, investigador del Grupo de Investigación de Aprendizaje Automático Aplicado de Byte, y Shen Zheng, pasante.
Shen Zheng es estudiante de maestría en la Universidad de Illinois en Urbana-Champaign (UIUC).
Además, cuatro investigadores, entre ellos Yijie Zhu, de Bytes, y el profesor Kevin Chen-Chuan Chang, de la UIUC, también participaron en el estudio.
Dirección:
Enlaces de referencia:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Los bytes "desempaquetan" todos los grandes modelos de OpenAI, revelando el camino de evolución de GPT-3 a GPT-4. Sopló a Li Mu
Fuente del artículo: qubits
¿Cómo evolucionó exactamente GPT-3 a GPT-4?
Bytes le dio a OpenAI todos los modelos grandes una operación de "unboxing".
Los resultados realmente descubrieron el papel específico y el impacto de algunas tecnologías clave en la evolución de GPT-4.
Después de iniciar un negocio, el toro de IA Li Mu, que estaba muy ocupado, también apareció en el ojo público después de mucho tiempo y elogió esta investigación.
Por ejemplo, GPT-4 no es alarmista a la hora de volverse estúpido, y esta evaluación encontró que hay un obvio "fenómeno de balancín" en el camino de la evolución de GPT, es decir, algunas habilidades aumentan y otras disminuyen durante la evolución del modelo.
Esto coincide con los sentimientos previos de los internautas.
En otras palabras, a través de él, podemos vislumbrar el "camino del éxito" del modelo GPT y proporcionar una experiencia efectiva para el próximo trabajo de construcción de modelos a gran escala.
Entonces, ¿qué es exactamente lo que "abre?", echemos un vistazo al papel.
Explorando la evolución de GPT-3 a GPT-4
El primer diagrama evolutivo fue resumido por los autores basándose en la información disponible públicamente.
Como puedes ver, marca qué tecnologías ha experimentado cada modelo intermedio (como el ajuste fino de código, SFT/FeedME, etc.) que han evolucionado desde el GPT-3 original hasta el 3.5 y ahora al 4.
Desde davinci hasta gpt-4-0613, bytes ha probado las 7 habilidades principales de cada generación de GPT, como las matemáticas, la codificación y el razonamiento.
En primer lugar, en la familia GPT-3, el davinci original (GPT-3) evolucionó hasta convertirse en text-davinci-001 supervisando el ajuste fino de SFT y su variante, FeedME.
Esto le da a este último un aumento del rendimiento en casi todas las tareas:
Sin embargo, el efecto de esta operación evolutiva no es realmente grande, y el rendimiento de GPT solo se ha mejorado unas pocas veces, y más no ha aumentado, sino que ha disminuido.
SFT solo funciona en modelos base más débiles y tiene poco efecto en modelos más fuertes.
Un fenómeno similar se puede ver en modelos de código abierto (esta revisión también probó Llama1 y 2, PaLM2-L, Claude 2, etc.):
Además del Llama-65B original, SFT logró mejorar su rendimiento en el punto de referencia MMLU, pero todos los Llama2-70B que utilizaron mejoras de SFT mostraron solo mejoras menores en la tabla de clasificación de Open LLM.
Resumen: En la etapa GPT3, la tecnología SFT jugó un papel clave en la evolución del modelo.
2, RLHF y SFT: Contribuyentes a la mejora de la capacidad de codificación
Después de la serie GPT3.5, a partir de text-davinci-002, OpenAI comenzó a introducir una nueva tecnología basada en el algoritmo PPO RLHF, lo que dio como resultado text-davinci-003.
En este punto, su rendimiento en la mayoría de los puntos de referencia está a la par o ligeramente peor que su predecesor, lo que indica que el efecto no es particularmente obvio (y lo mismo ocurre con los modelos de código abierto).
Con una excepción: la tarea de codificación, que aumentó en casi 30 puntos.
Aquí, midieron puntuaciones como pass@1 (probabilidad de 1 pasada de 1 muestra), pass@100 (probabilidad de 100 pasadas de 100 muestras) de varias generaciones de modelos GPT.
¿Qué significa esto?
El autor explica:
pass@100 describe la capacidad de codificación intrínseca del modelo, mientras que pass@1 representa la capacidad de codificación única y sin errores del modelo.
pass@100 ligera disminución sugiere que SFT y RLHF todavía tienen el llamado impuesto de alineación en las tareas de codificación, al igual que cualquier otra tarea.
Sin embargo, SFT y RLHF han sido capaces de aprender habilidades pass@1 pass@100, es decir, transformar habilidades intrínsecas (pero requieren muchos intentos) en una codificación única y sin errores, lo que resulta en un aumento significativo de pass@1.
Mirando los resultados cuidadosamente, podemos ver que gpt-3.5-turbo-0301 mejora en gran medida el pass@1 a través de SFT y RLHF, lo cual es una buena noticia para la optimización del rendimiento de los modelos pequeños.
Combinado con las observaciones anteriores, lo resumieron como:
Los LLM aún pueden usar SFT y RLHF para transformar continuamente sus capacidades intrínsecas (pero requieren múltiples intentos) en capacidades de resolución de problemas de una sola vez, acercándose al límite superior de las capacidades de los LLM.
La implicación es que GPT-4 puede ser aún más fuerte.
3. El código se agrega al entrenamiento previo, que es el más útil para la inferencia
En el camino de la evolución de GPT4, también han surgido 2 modelos especiales:
code-cushman-001 (Codex-12B) 和code-davinci-002。
El primero es el primer intento de OpenAI de entrenar un modelo utilizando datos de código y, a pesar de su pequeña escala, también ha logrado buenas capacidades de código.
Este último es el modelo base de GPT3.5, que es el resultado de un entrenamiento con código RLHF+ sobre la base de GPT3, es decir, un pre-entrenamiento híbrido de texto y código.
Se puede ver que supera con creces a GPT-3 (no solo en capacidad de codificación), e incluso supera a GPT-3.5-turbo-0613 en algunas tareas de inferencia (como BBH).
Esto demuestra que la adición de datos de código al entrenamiento previo puede mejorar de manera integral las capacidades de los LLM, especialmente la inferencia.
4, fenómeno "balancín"
Al comparar los modelos de API de OpenAI de marzo de 2023 y junio de 2023, podemos ver este fenómeno:
En comparación con gpt-3.5-turbo-0301, el gpt-3.5-turbo-0613 actualizado funciona bien en humanos (53.9 -> 80.0), pero cae significativamente en MATH (32.0 -> 15.0).
GPT-4-0613 superó a GPT-4-0314 (78,7 -> 87,2) en DROP, pero también experimentó una caída en picado (82,2 -> 68,7) en MGSM.
Según los autores:
El "fenómeno del balancín" puede convertirse en un obstáculo en el camino hacia la AGI para los LLM, porque la AGI enfatiza la "inteligencia general" y requiere un excelente desempeño en todas las tareas, lo que requiere que los modelos no estén "sesgados".
Aquí, también hicieron un llamado a la comunidad para que preste atención a este tema y promuevan conjuntamente la investigación sobre el desarrollo equilibrado de grandes modelos.
Ayuda a los grandes modelos a encontrar su camino
Todos los hallazgos anteriores se basan en GPT-Fathom -
Byte propuso recientemente una gran herramienta de evaluación de modelos.
Presumiblemente, todo el mundo debe tener preguntas:
Ya hay muchos grandes rankings de modelos y herramientas de evaluación, así que ¿por qué idear un nuevo enfoque?
Según los autores, en comparación con los métodos de evaluación existentes, la escala GPT-Fathom es más uniforme y los resultados son reproducibles.
Los profesionales de los grandes modelos pueden utilizarlo para aclarar dónde está la brecha entre ellos y el modelo líder, con el fin de mejorar sus productos de forma específica.
En concreto, GPT-Fathom resuelve principalmente tres deficiencias de otros métodos de evaluación de grandes modelos:
Criterios de configuración inconsistentes: No existe un estándar unificado para usar configuraciones como la cadena de pensamiento (CoT), el tamaño de la muestra, etc., y los métodos de evaluación de respuestas Colección incompleta de modelos y tareas: La capacidad de evaluar la atención no es exhaustiva y hay una falta de enfoque en los modelos anteriores Falta de investigación sobre la sensibilidad del modelo
Con el fin de reflejar de forma más intuitiva las características de GPT-Fatham, el autor compara algunas listas específicas existentes, que se pueden resumir en la siguiente tabla:
En comparación con GPT, otros modelos son muy sensibles a las palabras rápidas, y un ligero cambio conducirá a un resultado completamente diferente, lo que sugiere que todavía hay una gran brecha entre la robustez de otros modelos y GPT.
Por ejemplo, en el conjunto de datos TriviaQA, un ligero cambio en la palabra prompt redujo la puntuación de Llama 2-70B en una cuarta parte, mientras que los modelos de la serie GPT no cambiaron significativamente.
En el futuro, los autores planean continuar expandiendo GPT-Fathom desde tres dimensiones: tipos de capacidad, conjuntos de datos de prueba y modelos, y apoyarán la evaluación del diálogo de múltiples rondas, la multimodalidad y otras capacidades, así como aumentar las pruebas de múltiples conjuntos de datos y modelos.
Los dos coautores de GPT-Fatham son Yuyu Zhang, investigador del Grupo de Investigación de Aprendizaje Automático Aplicado de Byte, y Shen Zheng, pasante.
Shen Zheng es estudiante de maestría en la Universidad de Illinois en Urbana-Champaign (UIUC).
Además, cuatro investigadores, entre ellos Yijie Zhu, de Bytes, y el profesor Kevin Chen-Chuan Chang, de la UIUC, también participaron en el estudio.
Dirección:
Enlaces de referencia: