Fue una mañana cualquiera hace unos días. Estaba moviendo ladrillos a diario, y de repente me inundó todo tipo de información: "¡Date prisa, la estructura del modelo GPT-4 se ha filtrado y el modelo grande de producción nacional lo superará nuevamente!"
Encienda las redes sociales y vea, está bien, no necesita hablar inglés, y la gente doméstica ya se ha conectado, estoy realmente convencido de esta velocidad. Sin embargo, cuando fui a rastrear la fuente y ver qué tan confiable era la información, de repente sentí que me había alejado del círculo de tecnología del círculo de entretenimiento.
En vista del estado actual de Internet donde "Fake News" está volando por todo el cielo, lo primero que hice después de ver esta noticia fue rastrear la fuente.
▍Entresijos
El punto de partida para mi extracción de información fue un hilo de tweets compartidos en Hacker News extraídos a través de Thread Reader (archivado el 11 de julio). Haga clic para abrirlo, y hay dos frases:
Los detalles de GPT-4 se filtran.
Se acabó.
El nivel de este partido titular no es inferior al de China.
Como todos sabemos, OpenAI rompió su compromiso de apertura al lanzar GPT-4, no reveló ningún peso ni detalles técnicos y fue muy criticado por la industria. Esta es probablemente la razón por la que el bloguero usa el tallo It is over para generar el efecto dramático de "inversión de la trama".
Mirando el contenido nuevamente, son los detalles de entrenamiento GPT-4 de OpenAI. Ha habido muchas especulaciones sobre esta información, pero el funcionario no la ha revelado. Cuando se menciona, es muy vago (el texto original es relativamente oscuro, usa muchas abreviaturas y jerga, algunas se explicarán más adelante). :
Cantidad de parámetros del modelo: 1,8 billones, aproximadamente 10 veces más que GPT-3,5 (175 mil millones).
Profundidad de la capa del modelo: 120 capas.
Arquitectura del modelo: Modelo experto mixto (MoE, consulte la explicación a continuación), un total de 16 "expertos", cada uno con 111 000 millones de parámetros. Cada pase de inferencia hacia adelante (generando un token de salida) selecciona dos expertos.
Datos de entrenamiento: un total de 13T (13 billones) de datos de token. Los datos de texto se vuelven a entrenar 2 veces y los datos de código se vuelven a entrenar 4 veces. Este dato es realmente muy importante y será analizado en detalle más adelante.
Estrategia paralela: paralelismo de tensor de 8 vías + paralelismo de tubería de 16 vías. Hay múltiples clústeres de GPU ubicados en diferentes centros de datos que se entrenan simultáneamente, cada clúster tiene 128 GPU.
Contexto previo al entrenamiento: 8K. La versión de 32K está ajustada desde 8K.
Costo de entrenamiento: Entrenamiento continuo de 90 a 100 días en alrededor de 25,000 A100 a una tasa de alrededor de 2.15e25 flops. A $1 por A100 hora, costaría alrededor de $63 millones. (Se puede hacer hoy en aproximadamente 55 días usando alrededor de 8192 H100 a un costo estimado de $ 21,5 millones).
La pregunta es, ¿cómo surgió esta información? ¿Es confiable?
Siga la vid para tocar el "melón", y encontré al editor de esta serie de tweets: Yam Peleg.
Aunque no he seguido la cuenta de este anciano, he leído sus artículos anteriores. Él es el director ejecutivo de una "empresa emergente" en Israel (pero se estableció hace 15 años y puede que no sea apropiado llamarla una empresa emergente); tengo una gran experiencia en ingeniería y entiendo grandes modelos de lenguaje. Lo he intentado para revertir el crack GPT-4 y el intérprete de código ChatGPT. En junio de este año, cuando los miembros de OpenAI visitaron Israel, Peleg también fue a participar en la discusión y comunicación, y también se tomó una foto con el director ejecutivo Sam Altman.
Al leer el artículo de este anciano, no puedo evitar pensar en Tom, un oficial de enlace estudiantil que conocí en Israel, que puede hacer que tu sangre hierva si dices algo.
Desde la izquierda: Sam Altman, Yam Peleg (Fuente: @Yampeleg)
Teniendo en cuenta que este anciano ha estado investigando OpenAI y conoce a mucha gente dentro de OpenAI, por lo que si obtiene información interna, creo que la credibilidad es bastante alta.
Pero cuando estaba a punto de estudiar cuidadosamente sus publicaciones por la noche, de repente descubrí que había eliminado todas las publicaciones anteriores. Al principio, pensé que estaba cubierto por OpenAI, pero me alegré de haber conservado el archivo. Después de una mirada más cercana, descubrí que no fue porque OpenAI solicitó la eliminación, sino porque también lo informó desde una columna de pago y se quejó de infracción de derechos de autor.
La fuente original de esto es una columna de Substack llamada SemiAnalysis. Anteriormente publicaron un artículo titulado GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE, Behind a paywall.
Después de comprobarlo, descubrí:
SemiAnalysis es una firma boutique de consultoría e investigación de semiconductores centrada en la cadena de suministro de semiconductores, desde la materia prima química hasta la fabricación, el diseño de propiedad intelectual y la estrategia. La empresa fue fundada por Dylan Patel, analista e ingeniero con muchos años de experiencia en la industria de los semiconductores. Patel ha ocupado cargos que van desde ingeniero de diseño hasta gerente de marketing en Intel, AMD, Qualcomm y más.
El equipo de SemiAnalysis también incluye una serie de analistas y consultores profesionales de semiconductores. Cada uno tiene diferentes áreas de especialización, como IA, computación en la nube, redes, almacenamiento, vehículos eléctricos, radiofrecuencia, Internet de las cosas, etc. Brindan a los clientes un análisis integral de la cadena de suministro de semiconductores y servicios de consultoría, desde materias primas químicas hasta fábricas para diseñar IP y estrategias.
Anteriormente, SemiAnalysis también publicó un artículo que revela que los ingenieros de Google dijeron en comunicaciones internas que "No tenemos foso, ni OpenAI" (No tenemos foso, ni OpenAI), lo que provocó mucha discusión. Más tarde se confirmó que este artículo era cierto.
Desde este punto de vista, es posible que el hermano Dylan Patel tenga algunas personas con información privilegiada, y la credibilidad de la información que brindaron aún debería ser aceptable.
En cuanto a por qué estaban tan ansiosos de que Brother Yam borrara los tweets, porque esta "información privilegiada" es realmente valiosa, y las suscripciones a los artículos pagados de SemiAnalysis cuestan $ 500 al año. La suscripción de Brother Yam a la versión élite cuesta $1,000.
▍Análisis de tarjetas
Según estos entresijos, mi opinión es que este rumor aún tiene cierto grado de credibilidad. Los siguientes son algunos de mis análisis basados en esta información, que propongo para la discusión.
La competencia por modelos privados se centrará en el paralelismo
Según este rumor, si se quiere entrenar a un competidor GPT-4, se estima que utilizando unos 8.192 chips H100, a un precio de $2 la hora, el pre-entrenamiento se puede completar en unos 55 días, y el costo es alrededor de $ 21,5 millones (150 millones de RMB).
Este costo realmente no es demasiado grande para el turbulento mercado LLM actual. Los principales jugadores nacionales actuales pueden realizar fácilmente varias sesiones de entrenamiento. Entonces, para ser honesto esta vez, puede que realmente no sea jactarse de comparar GPT-4 dentro de medio año con las capacidades del modelo (al menos la escala de parámetros).
Si el costo de la capacitación no es un problema, ¿lo serán los datos de capacitación? Yo tampoco lo creo. Se rumorea que los datos de entrenamiento de GPT-4 tienen un total de 13T (13 billones) de tokens. A modo de comparación, los conjuntos de datos públicos de CommonCrawl y RefinedWeb tienen tokens 5 T. Se rumorea que el resto proviene de Twitter, Reddit y YouTube; algunas demandas también afirman que OpenAI usó datos pirateados de "bibliotecas en la sombra" como LibGen y SciHub.
Por lo tanto, creo que la escala de estos datos no es inalcanzable. Además, el propio país ha acumulado una gran cantidad de recursos chinos, por lo que los datos de capacitación no deberían ser un gran problema.
Para otros problemas, como el entrenamiento previo, el ajuste fino y la codificación y decodificación china, de hecho, no hay demasiados secretos técnicos y los métodos son relativamente abiertos. Con suficientes recursos, debería resolverse en medio año.
Entonces, el último umbral restante es el paralelismo. De hecho, se ha utilizado una gran cantidad de espacio en este rumor para introducir contenido relevante, y el nivel profesional sigue siendo relativamente alto. Aquí solo puedo dar algunas explicaciones superficiales.
En términos generales, el llamado problema paralelo es que tiene un modelo grande, cómo permitir que la mayoría de las personas lo usen al mismo tiempo al menor costo. Esto implica muchos problemas de diseño profesional. En el caso de recursos informáticos fijos, ¿cómo asignar recursos informáticos en diferentes enlaces? ¿Cómo manejar la concurrencia? ¿Cómo administrar la memoria?
La capacidad de procesamiento paralelo determina directamente la experiencia del usuario. En la actualidad, ChatGPT y la API basada en GPT-3.5 funcionan relativamente bien, lo cual es muy potente. Todos aquí pueden decir que otros LLM domésticos o Claude que he experimentado son más rápidos que GPT-3.5. Sin embargo, no todos consideraron la magnitud del uso. GPT-3.5 tiene tal rendimiento bajo una concurrencia tan alta. Si otros fabricantes no pueden igualar la capacidad de OpenAI, no podrán apoderarse del mercado de OpenAI.
Por lo tanto, las capacidades paralelas pueden convertirse en uno de los puntos clave de competencia para varios competidores de OpenAI.
GPT-5 se enfoca en la multimodalidad
Como se mencionó anteriormente, se rumorea que GPT-4 es un modelo de "mezcla de expertos" (MoE) compuesto por 16 modelos expertos. Aquí hay una breve explicación de lo que es la "mezcla experta", que se refiere a dividir el "problema" del usuario en varios subproblemas, y cada subproblema se entrega a un modelo más pequeño (es decir, un "experto") para resolver, y luego a través de un El "modelo de enrutamiento" se selecciona y combina, y luego se envía al usuario.
Los rumores afirman además que cada "experto" de GPT-4 tiene 111 mil millones de parámetros, equivalentes a GPT-3 (esto es consistente con los parámetros de GPT-4 que Sam Altman dijo antes que son incluso más pequeños que GPT-3.5), de los cuales hay Se comparten 55 mil millones de parámetros. Cada pase de inferencia hacia adelante (que genera una salida de token) utiliza dos "expertos", que consumen de manera efectiva alrededor de 280 mil millones de parámetros. Este número es significativamente más pequeño que el número requerido sin MoE, y también es similar a las predicciones de muchos académicos en la etapa inicial.
Vale la pena señalar que los rumores indican que los datos de texto y código utilizados para el entrenamiento de GPT-4 se reutilizan. Combinado con la elección de usar el marco MoE, personalmente supongo: o los datos de texto de alta calidad que se pueden obtener fácilmente en la actualidad están cerca del agotamiento, o la mejora del rendimiento de LLM al aumentar la cantidad de datos sin límite ya es muy limitado.
Sin embargo, no importa cuál sea la situación, si GPT-5 quiere tener un gran avance en el rendimiento, debe poder hacer un uso completo de la gran cantidad de datos de video, imagen y audio existentes, en otras palabras, es un " modelo "multimodal".
El problema es que, según este rumor, la multimodalidad visual actual de OpenAI no tiene mucho que ofrecer. Es un codificador visual independiente que usa texto como entrada para el entrenamiento previo y luego usa alrededor de 2 billones de tokens para el ajuste fino. Este método de entrenamiento obviamente no puede hacer un uso completo de los datos de video, imagen y audio existentes.
Por lo tanto, OpenAI siempre ha enfatizado que GPT-5 no ha sido entrenado y que la probabilidad es cierta. Antes de entrenar GPT-5, tenían que encontrar una mejor arquitectura de modelo multimodal para que el modelo pudiera hacer un uso completo de los datos de audio y video. Solo al poder utilizar estos datos de entrenamiento de alta calidad, GPT-5 podrá obtener una mejora de capacidad suficiente. (Al mismo tiempo, si GPT-5 realmente puede hacer un uso completo de estos datos de audio y video, entonces, ya sea AGI o el "Super Intelligence Body" propuesto recientemente por OpenAI, parece que no está tan lejos).
OpenAI puede haber lanzado este rumor intencionalmente
Esta inferencia es puramente especulación personal. Los hechos no son suficientes, solo eche un vistazo.
Tengo entendido que OpenAI es muy consciente de que el foso de GPT-4 no es profundo; en la moda actual, no es difícil para los competidores ponerse al día. Y como se analizó anteriormente, su actual estructura de modelo multimodal a gran escala no debería finalizarse. En este momento, si surgen nuevos jugadores y se abren paso desde multimodal, la probabilidad de que OpenAI sea superada por la curva también es muy alta. .
Entonces, este puede ser el plan de OpenAI para desacelerar la guerra: les revelaré información sobre GPT-4, dejaré que los jugadores principales primero hagan el trabajo de recreación de GPT-4 y sigan el camino que OpenAI ya ha recorrido. .
Si durante este proceso, OpenAI sentó las bases para la capacitación de GPT-5 y completó la investigación preliminar del modelo grande multimodal, incluso si GPT-4 ha sido superado por otros modelos de lenguaje grande, OpenAI no entrará en pánico. Personalmente, creo que es probable que la multimodalidad sea la última generación de participación humana, y AGI puede ser la fuerza principal en el desarrollo y la evolución del modelo futuro. En otras palabras, si ganas esta vez, puedes ganar hasta el final.
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Se han publicado los detalles de entrenamiento GPT-4 de OpenAI de "sin mencionar la muerte", esta es mi interpretación
Fuente original: Minoría
Fue una mañana cualquiera hace unos días. Estaba moviendo ladrillos a diario, y de repente me inundó todo tipo de información: "¡Date prisa, la estructura del modelo GPT-4 se ha filtrado y el modelo grande de producción nacional lo superará nuevamente!"
Encienda las redes sociales y vea, está bien, no necesita hablar inglés, y la gente doméstica ya se ha conectado, estoy realmente convencido de esta velocidad. Sin embargo, cuando fui a rastrear la fuente y ver qué tan confiable era la información, de repente sentí que me había alejado del círculo de tecnología del círculo de entretenimiento.
En vista del estado actual de Internet donde "Fake News" está volando por todo el cielo, lo primero que hice después de ver esta noticia fue rastrear la fuente.
▍Entresijos
El punto de partida para mi extracción de información fue un hilo de tweets compartidos en Hacker News extraídos a través de Thread Reader (archivado el 11 de julio). Haga clic para abrirlo, y hay dos frases:
El nivel de este partido titular no es inferior al de China.
Como todos sabemos, OpenAI rompió su compromiso de apertura al lanzar GPT-4, no reveló ningún peso ni detalles técnicos y fue muy criticado por la industria. Esta es probablemente la razón por la que el bloguero usa el tallo It is over para generar el efecto dramático de "inversión de la trama".
Mirando el contenido nuevamente, son los detalles de entrenamiento GPT-4 de OpenAI. Ha habido muchas especulaciones sobre esta información, pero el funcionario no la ha revelado. Cuando se menciona, es muy vago (el texto original es relativamente oscuro, usa muchas abreviaturas y jerga, algunas se explicarán más adelante). :
La pregunta es, ¿cómo surgió esta información? ¿Es confiable?
Siga la vid para tocar el "melón", y encontré al editor de esta serie de tweets: Yam Peleg.
Al leer el artículo de este anciano, no puedo evitar pensar en Tom, un oficial de enlace estudiantil que conocí en Israel, que puede hacer que tu sangre hierva si dices algo.
Teniendo en cuenta que este anciano ha estado investigando OpenAI y conoce a mucha gente dentro de OpenAI, por lo que si obtiene información interna, creo que la credibilidad es bastante alta.
Pero cuando estaba a punto de estudiar cuidadosamente sus publicaciones por la noche, de repente descubrí que había eliminado todas las publicaciones anteriores. Al principio, pensé que estaba cubierto por OpenAI, pero me alegré de haber conservado el archivo. Después de una mirada más cercana, descubrí que no fue porque OpenAI solicitó la eliminación, sino porque también lo informó desde una columna de pago y se quejó de infracción de derechos de autor.
Después de comprobarlo, descubrí:
Anteriormente, SemiAnalysis también publicó un artículo que revela que los ingenieros de Google dijeron en comunicaciones internas que "No tenemos foso, ni OpenAI" (No tenemos foso, ni OpenAI), lo que provocó mucha discusión. Más tarde se confirmó que este artículo era cierto.
Desde este punto de vista, es posible que el hermano Dylan Patel tenga algunas personas con información privilegiada, y la credibilidad de la información que brindaron aún debería ser aceptable.
En cuanto a por qué estaban tan ansiosos de que Brother Yam borrara los tweets, porque esta "información privilegiada" es realmente valiosa, y las suscripciones a los artículos pagados de SemiAnalysis cuestan $ 500 al año. La suscripción de Brother Yam a la versión élite cuesta $1,000.
▍Análisis de tarjetas
Según estos entresijos, mi opinión es que este rumor aún tiene cierto grado de credibilidad. Los siguientes son algunos de mis análisis basados en esta información, que propongo para la discusión.
La competencia por modelos privados se centrará en el paralelismo
Según este rumor, si se quiere entrenar a un competidor GPT-4, se estima que utilizando unos 8.192 chips H100, a un precio de $2 la hora, el pre-entrenamiento se puede completar en unos 55 días, y el costo es alrededor de $ 21,5 millones (150 millones de RMB).
Este costo realmente no es demasiado grande para el turbulento mercado LLM actual. Los principales jugadores nacionales actuales pueden realizar fácilmente varias sesiones de entrenamiento. Entonces, para ser honesto esta vez, puede que realmente no sea jactarse de comparar GPT-4 dentro de medio año con las capacidades del modelo (al menos la escala de parámetros).
Si el costo de la capacitación no es un problema, ¿lo serán los datos de capacitación? Yo tampoco lo creo. Se rumorea que los datos de entrenamiento de GPT-4 tienen un total de 13T (13 billones) de tokens. A modo de comparación, los conjuntos de datos públicos de CommonCrawl y RefinedWeb tienen tokens 5 T. Se rumorea que el resto proviene de Twitter, Reddit y YouTube; algunas demandas también afirman que OpenAI usó datos pirateados de "bibliotecas en la sombra" como LibGen y SciHub.
Por lo tanto, creo que la escala de estos datos no es inalcanzable. Además, el propio país ha acumulado una gran cantidad de recursos chinos, por lo que los datos de capacitación no deberían ser un gran problema.
Para otros problemas, como el entrenamiento previo, el ajuste fino y la codificación y decodificación china, de hecho, no hay demasiados secretos técnicos y los métodos son relativamente abiertos. Con suficientes recursos, debería resolverse en medio año.
Entonces, el último umbral restante es el paralelismo. De hecho, se ha utilizado una gran cantidad de espacio en este rumor para introducir contenido relevante, y el nivel profesional sigue siendo relativamente alto. Aquí solo puedo dar algunas explicaciones superficiales.
En términos generales, el llamado problema paralelo es que tiene un modelo grande, cómo permitir que la mayoría de las personas lo usen al mismo tiempo al menor costo. Esto implica muchos problemas de diseño profesional. En el caso de recursos informáticos fijos, ¿cómo asignar recursos informáticos en diferentes enlaces? ¿Cómo manejar la concurrencia? ¿Cómo administrar la memoria?
La capacidad de procesamiento paralelo determina directamente la experiencia del usuario. En la actualidad, ChatGPT y la API basada en GPT-3.5 funcionan relativamente bien, lo cual es muy potente. Todos aquí pueden decir que otros LLM domésticos o Claude que he experimentado son más rápidos que GPT-3.5. Sin embargo, no todos consideraron la magnitud del uso. GPT-3.5 tiene tal rendimiento bajo una concurrencia tan alta. Si otros fabricantes no pueden igualar la capacidad de OpenAI, no podrán apoderarse del mercado de OpenAI.
Por lo tanto, las capacidades paralelas pueden convertirse en uno de los puntos clave de competencia para varios competidores de OpenAI.
GPT-5 se enfoca en la multimodalidad
Como se mencionó anteriormente, se rumorea que GPT-4 es un modelo de "mezcla de expertos" (MoE) compuesto por 16 modelos expertos. Aquí hay una breve explicación de lo que es la "mezcla experta", que se refiere a dividir el "problema" del usuario en varios subproblemas, y cada subproblema se entrega a un modelo más pequeño (es decir, un "experto") para resolver, y luego a través de un El "modelo de enrutamiento" se selecciona y combina, y luego se envía al usuario.
Los rumores afirman además que cada "experto" de GPT-4 tiene 111 mil millones de parámetros, equivalentes a GPT-3 (esto es consistente con los parámetros de GPT-4 que Sam Altman dijo antes que son incluso más pequeños que GPT-3.5), de los cuales hay Se comparten 55 mil millones de parámetros. Cada pase de inferencia hacia adelante (que genera una salida de token) utiliza dos "expertos", que consumen de manera efectiva alrededor de 280 mil millones de parámetros. Este número es significativamente más pequeño que el número requerido sin MoE, y también es similar a las predicciones de muchos académicos en la etapa inicial.
Vale la pena señalar que los rumores indican que los datos de texto y código utilizados para el entrenamiento de GPT-4 se reutilizan. Combinado con la elección de usar el marco MoE, personalmente supongo: o los datos de texto de alta calidad que se pueden obtener fácilmente en la actualidad están cerca del agotamiento, o la mejora del rendimiento de LLM al aumentar la cantidad de datos sin límite ya es muy limitado.
Sin embargo, no importa cuál sea la situación, si GPT-5 quiere tener un gran avance en el rendimiento, debe poder hacer un uso completo de la gran cantidad de datos de video, imagen y audio existentes, en otras palabras, es un " modelo "multimodal".
El problema es que, según este rumor, la multimodalidad visual actual de OpenAI no tiene mucho que ofrecer. Es un codificador visual independiente que usa texto como entrada para el entrenamiento previo y luego usa alrededor de 2 billones de tokens para el ajuste fino. Este método de entrenamiento obviamente no puede hacer un uso completo de los datos de video, imagen y audio existentes.
Por lo tanto, OpenAI siempre ha enfatizado que GPT-5 no ha sido entrenado y que la probabilidad es cierta. Antes de entrenar GPT-5, tenían que encontrar una mejor arquitectura de modelo multimodal para que el modelo pudiera hacer un uso completo de los datos de audio y video. Solo al poder utilizar estos datos de entrenamiento de alta calidad, GPT-5 podrá obtener una mejora de capacidad suficiente. (Al mismo tiempo, si GPT-5 realmente puede hacer un uso completo de estos datos de audio y video, entonces, ya sea AGI o el "Super Intelligence Body" propuesto recientemente por OpenAI, parece que no está tan lejos).
OpenAI puede haber lanzado este rumor intencionalmente
Esta inferencia es puramente especulación personal. Los hechos no son suficientes, solo eche un vistazo.
Tengo entendido que OpenAI es muy consciente de que el foso de GPT-4 no es profundo; en la moda actual, no es difícil para los competidores ponerse al día. Y como se analizó anteriormente, su actual estructura de modelo multimodal a gran escala no debería finalizarse. En este momento, si surgen nuevos jugadores y se abren paso desde multimodal, la probabilidad de que OpenAI sea superada por la curva también es muy alta. .
Entonces, este puede ser el plan de OpenAI para desacelerar la guerra: les revelaré información sobre GPT-4, dejaré que los jugadores principales primero hagan el trabajo de recreación de GPT-4 y sigan el camino que OpenAI ya ha recorrido. .
Si durante este proceso, OpenAI sentó las bases para la capacitación de GPT-5 y completó la investigación preliminar del modelo grande multimodal, incluso si GPT-4 ha sido superado por otros modelos de lenguaje grande, OpenAI no entrará en pánico. Personalmente, creo que es probable que la multimodalidad sea la última generación de participación humana, y AGI puede ser la fuerza principal en el desarrollo y la evolución del modelo futuro. En otras palabras, si ganas esta vez, puedes ganar hasta el final.