Una captura de pantalla del documento de Microsoft reveló que GPT-3.5 solo tiene 20 mil millones de parámetros. ¡El círculo de IA se sorprendió y los internautas gritaron que era escandaloso!

2023-10-31 05:05:56

Fuente original: New Zhiyuan

Fuente de la imagen: Generado por Unbounded AI

¿GPT-3.5 solo tiene 20 mil millones de parámetros?

Hoy, el gran círculo de modelos ha saltado por los aires con una captura de pantalla en el artículo de Microsoft, ¿qué está pasando?

Hace apenas unos días, Microsoft publicó un artículo sobre arXiv, que proponía un modelo de difusión a pequeña escala con solo 75 millones de parámetros: CodeFusion.

En términos de rendimiento, los 75 millones de parámetros de CodeFusion son comparables al modelo 350M-175B de última generación en términos de indicadores de precisión top-1.

Dirección:

El trabajo de este artículo es muy interesante, pero lo que atrae la atención especial de todos es:

Cuando el autor compara ChatGPT (gpt-3.5-turbo), ¡el número nominal de parámetros es solo 20B!

Antes de esto, la conjetura de todo el mundo sobre el número de parámetros GPT-3.5 era de 175 mil millones, lo que equivale a una reducción de casi diez veces.

Según las revelaciones de este documento, los internautas también acudieron a Wikipedia para actualizar la introducción de GPT-3.5 y cambiaron directamente el tamaño del parámetro a 20B.

Tan pronto como salió la noticia, apareció directamente en la búsqueda caliente de Zhihu y los internautas explotaron.

Algunas personas dijeron, date prisa y saca mi publicación anterior del blog de destilación de modelos para revisarla y revisarla.

## **¿Es "oolong" o "hecho"? **

Tan pronto como salieron a la luz las revelaciones de los internautas, instantáneamente provocaron acaloradas discusiones.

Hasta ahora, más de 680.000 personas han acudido a verlo.

El hermano mayor dijo que varios autores del artículo también están usando Twitter, y se estima que no pasará mucho tiempo antes de que lo expliquen en persona.

En cuanto a este misterioso "20B", los internautas también tienen opiniones diferentes.

Algunos especulan que lo más probable es que se trate de un error del autor. Por ejemplo, originalmente era 120B o 200B.

Combinado con varias evaluaciones en la realidad, de hecho hay muchos modelos pequeños que pueden lograr resultados similares a ChatGPT, como Mistral-7B.

Quizás, esto también sea una confirmación lateral de que GPT-3.5 no es realmente grande.

Muchos internautas también piensan que los parámetros de 20B pueden ser precisos, y han suspirado:

"¡Es inimaginable! Ni el Falcon-180B ni el Llama2-70B pueden vencer al modelo 20B".

Algunos internautas también creen que GPT-3.5-Turbo es una versión refinada de GPT-3.5.

Y esta "filtración" de los parámetros no hace más que confirmar esos rumores de que el GPT-3.5-Turbo no es tan bueno como el antiguo GPT-3.5.

Sin embargo, según la documentación oficial de OpenAI, a excepción de text-davinci y code-davinci, que ya no se utilizan, todos los miembros de la familia GPT-3.5 se basan en gpt-3.5-turbo.

## Microsoft lanza CodeFusion

El documento de Microsoft, que reveló que GPT3.5 solo tiene parámetros de 20B, quiere introducir un modelo de difusión para la generación de código.

Los investigadores evaluaron CodeFusion, un modelo para la tarea de generar código para lenguaje natural para reglas de formato condicional (CF) de Bash, Python y Microsoft Excel.

Los experimentos han demostrado que CodeFusion (solo 75 millones de parámetros) es comparable al LLM de última generación (parámetros 350M-175B) en términos de precisión top-1, y tiene un excelente rendimiento y relación de parámetros en términos de precisión top-3 y top-5.

Arquitectura del modelo

CODEFUSION SE UTILIZA PARA TAREAS DE GENERACIÓN DE CÓDIGO, Y SU ENTRENAMIENTO SE DIVIDE EN DOS FASES, LA PRIMERA ETAPA ES EL ENTRENAMIENTO PREVIO NO SUPERVISADO Y LA SEGUNDA ETAPA ES EL AJUSTE FINO SUPERVISADO.

EN LA PRIMERA FASE, CODEFUSION UTILIZA FRAGMENTOS DE CÓDIGO SIN ETIQUETAR PARA ENTRENAR EL ELIMINADOR DE RUIDO Y EL DECODIFICADOR. También utiliza una capa de incrustación entrenable, L, para incrustar fragmentos de código en espacios contiguos.

EN LA SEGUNDA FASE, CODEFUSION REALIZA UN AJUSTE FINO SUPERVISADO, UTILIZANDO DATOS DE PARES TEXTO-CÓDIGO. En esta etapa, el codificador, el eliminador de ruido y el decodificador están ajustados para realizar mejor la tarea.

ADEMÁS, CODEFUSION SE BASA EN INVESTIGACIONES PREVIAS SOBRE DIFUSIÓN DE TEXTO PARA FUSIONAR LA REPRESENTACIÓN OCULTA D DEL DECODIFICADOR EN EL MODELO. Esto es para mejorar el rendimiento del modelo. Durante el proceso de entrenamiento, en diferentes pasos, el modelo introduce algo de ruido y, a continuación, calcula la función de pérdida para asegurarse de que el fragmento de código generado está más en línea con el estándar esperado.

EN RESUMEN, CODEFUSION ES UN MODELO PEQUEÑO QUE REALIZA TRABAJOS DE GENERACIÓN DE CÓDIGO Y MEJORA CONTINUAMENTE SU RENDIMIENTO A TRAVÉS DE DOS FASES DE ENTRENAMIENTO E INGESTA DE RUIDO. Este modelo se inspira en el estudio de la difusión de texto y mejora la función de pérdida al fusionar la representación oculta del decodificador para generar mejor fragmentos de código de alta calidad.

Resultados de la evaluación

En la tabla siguiente se resume el rendimiento del modelo CODEFUSION y de cada modelo de línea base en los valores top-1, top-3 y top-5.

En el top-1, el rendimiento de CODEFUSION es comparable, y en algunos casos incluso mejor, especialmente en las tareas de Python, donde solo GPT-3 (175B) tiene un rendimiento ligeramente mejor que CODEFUSION (75M). Sin embargo, en términos de top-3 y top-5, CODEFUSION superó significativamente a todos los modelos de referencia.

La siguiente tabla muestra los resultados de diversidad promedio de CODEFUSION y los modelos autorregresivos (incluidos T5, CodeT5, StarCoder, CodeGen y GPT-3) en cada tarea de referencia, y examina los resultados generados por las primeras 5 generaciones de cada modelo.

EN COMPARACIÓN CON LOS MODELOS AUTORREGRESIVOS, CODEFUSION GENERA RESULTADOS MÁS DIVERSOS Y FUNCIONA MEJOR.

En el experimento de ablación, los autores detuvieron el proceso de eliminación de ruido y generaron un fragmento de código del estado actual en el rango del paso de tiempo t∈[0, T]. Normalizar la distancia de edición de cadena se utiliza para medir los resultados obtenidos para cada periodo de tiempo (en incrementos de cada 100 pasos).

ESTE ENFOQUE AYUDA A RESUMIR Y DEMOSTRAR EL PROGRESO PASO A PASO DEL MODELO DE CODEFUSION, COMO SE MUESTRA EN LA FIGURA SIGUIENTE.

Dicho todo esto, ¿cuál es exactamente el número de parámetros en GPT-3.5? ¿Cuál es la conexión técnica y de otro tipo entre GPT-4 y GPT-3.5?

¿Es GPT-3.5 un conjunto de pequeños modelos expertos o un modelo generalista? ¿Se destila con un modelo más grande o se entrena con datos más grandes?

Las respuestas a estas preguntas solo se revelarán cuando sean realmente de código abierto.

Recursos:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Show My Alpha Points
14k Popularidad
2Crypto Market Rebound
167k Popularidad
3SEC Crypto Project
21k Popularidad
4CandyDrop Airdrop Event 6.0
94k Popularidad
5White House Crypto Report
82k Popularidad

Anclado