¡El viejo Huang gana! El pedido H100 de Nvidia ha sido programado por 24 años, y Musk no puede quedarse quieto

2023-08-13 01:07:59

Fuente original: Qubit

La mejor GPU para refinar modelos grandes NVIDIA H100, ¡todas agotadas!

Incluso si lo solicita ahora, no estará disponible hasta el primer trimestre o incluso el segundo trimestre de 2024.

Esta es la última noticia revelada al Wall Street Journal por CoreWeave, un proveedor de nube estrechamente relacionado con Nvidia.

La oferta ha sido extremadamente escasa desde principios de abril. En solo una semana, los plazos de entrega previstos pasaron de niveles razonables a finales de año.

Amazon AWS, el proveedor de nube más grande del mundo, también confirmó la noticia. El CEO Adam Selipsky dijo recientemente:

A100 y H100 son lo último en tecnología... difícil de conseguir incluso para AWS.

Anteriormente, Musk también dijo en un programa de entrevistas: La GPU ahora es más difícil de obtener que los productos d.

Si encuentra un "revendedor" para comprar, la prima es tan alta como 25%.

Por ejemplo, el precio en Ebay ha subido de unos 36.000 dólares EE.UU. en fábrica a 45.000 dólares EE.UU.**, y la oferta es escasa.

En esta situación, las grandes empresas tecnológicas nacionales como Baidu, Byte, Ali y Tencent** también han realizado pedidos de A800 y otros chips por un total de 5.000 millones de dólares** a Nvidia.

Entre ellos, solo se pueden entregar 1.000 millones de dólares estadounidenses en bienes dentro de este año, y el otro 80% tendrá que esperar hasta 2024.

Entonces, ¿a quién se venden las GPU de gama alta existentes? ¿Dónde está estancada esta ola de capacidad de producción?

A quién le vende H100, Lao Huang tiene la última palabra

Desde el estallido de ChatGPT, Nvidia A100 y H100, que son buenos para entrenar modelos grandes, se han vuelto populares.

Incluso H100 ya se puede utilizar como un activo para empresas de nueva creación para encontrar fondos de inversión para obtener préstamos hipotecarios.

Empresas de inteligencia artificial representadas por OpenAI y Meta, empresas de computación en la nube representadas por Amazon y Microsoft, nubes privadas Coreweave y Lambda, y todas las varias empresas de tecnología que desean refinar sus propios modelos grandes, The la demanda es enorme.

** Sin embargo, es básicamente el CEO de Nvidia, Huang Renxun, quien tiene la última palabra sobre a quién vender. **

Según The Information, el suministro de H100 es tan escaso que Nvidia** asignó una gran cantidad de tarjetas nuevas a CoreWeave** y un suministro limitado** a empresas de computación en la nube establecidas, como Amazon y Microsoft.

(Nvidia también ha invertido directamente en CoreWeave).

El análisis externo se debe a que estas empresas establecidas están desarrollando sus propios chips de aceleración de IA, con la esperanza de reducir su dependencia de Nvidia, por lo que Lao Huang los ayudará.

Lao Huang también controla todos los aspectos de las operaciones diarias de la empresa dentro de Nvidia, incluso "revisar lo que los representantes de ventas van a decir a los pequeños clientes potenciales".

Alrededor de 40 ejecutivos de la empresa reportan directamente a Lao Huang**, que es más que los subordinados directos de Meta Xiaozha y Microsoft Xiaona combinados.

Un exgerente de Nvidia reveló: "En Nvidia, Huang Renxun es en realidad el director de producto de cada producto".

Hace un tiempo, también se rumoreaba que Lao Huang hizo algo exagerado: Pide a algunas pequeñas empresas de computación en la nube que proporcionen sus listas de clientes, queriendo saber quiénes son los usuarios finales de la GPU.

Según un análisis externo, este movimiento permitirá a Nvidia comprender mejor las necesidades de los clientes para sus productos, y también ha expresado su preocupación de que Nvidia pueda usar esta información para obtener beneficios adicionales.

Algunas personas también piensan que otra razón es que Lao Huang quiere saber quién realmente está usando la tarjeta y quién simplemente la está acumulando y no la está usando.

¿Por qué Nvidia y Lao Huang tienen una voz tan grande ahora?

La razón principal es que la oferta y la demanda de GPU de gama alta están demasiado desequilibradas. Según el cálculo del sitio web de GPU Utils, la brecha H100** es de hasta 430 000**.

El autor Clay Pascal estimó la cantidad de H100 que necesitarán varios jugadores en la industria de la IA en un futuro cercano basándose en varios rumores e información conocida.

Lado de la empresa AI:

OpenAI puede necesitar 50 000 H100 para entrenar GPT-5
Se dice que Meta necesita 100,000
Se ha anunciado el plan de clúster de energía informática de 22,000 tarjetas de InflectionAI
Las principales empresas emergentes de IA como Anthropic, Character.ai, MistraAI y HelsingAI en Europa requieren del orden de 10 000 cada una.

Empresa de computación en la nube:

En grandes nubes públicas, Amazon, Microsoft, Google y Oracle se calculan en 30 000, con un total de 120 000
La nube privada representada por CoreWeave y Lambda necesita un total de 100.000

Suma 432.000.

Esto sin contar algunas compañías financieras y otros participantes de la industria, como JP Morgan Chase y Two Sigma, que también han comenzado a implementar sus propios clústeres de potencia informática.

Entonces, la pregunta es, con una brecha de suministro tan grande, ¿no podemos producir más?

Lao Huang también lo pensó, pero la capacidad de producción está atascada.

¿Dónde está atascada la capacidad de producción esta vez?

De hecho, TSMC ya ha ajustado su plan de producción para Nvidia.

Sin embargo, todavía no pudo llenar un vacío tan grande.

Charlie Boyle, vicepresidente y gerente general del sistema DGX de Nvidia, dijo que esta vez no está atascado en la oblea, sino que la tecnología de empaquetado CoWoS de TSMC ha encontrado un cuello de botella en su capacidad de producción.

Es Apple la que compite con Nvidia por la capacidad de producción de TSMC, y obtendrá el chip A17 para el iPhone de próxima generación antes de la conferencia de septiembre.

TSMC declaró recientemente que se espera que tome 1,5 años para que la acumulación del proceso de empaque vuelva a la normalidad.

La tecnología de empaquetado CoWoS es la habilidad de limpieza de TSMC, y la razón por la que TSMC puede vencer a Samsung para convertirse en la fundición de chips exclusiva de Apple depende de ello.

Los productos empaquetados por esta tecnología tienen un alto rendimiento y una gran confiabilidad, por lo que el H100 puede tener un ancho de banda de 3 TB/s (o incluso más).

El nombre completo de CoWoS es Chip-on-Wafer-on-Substrate, que es una tecnología de integración de chips que es única a nivel de oblea.

Esta tecnología permite el empaquetado de varios chips en un intercalador de silicio de solo 100 μm de grosor**.

Según los informes, el área del intercalador de próxima generación alcanzará 6 veces la retícula, que es de aproximadamente 5000 mm².

Hasta ahora, aparte de TSMC, ningún fabricante tiene este nivel de capacidad de empaque.

Si bien CoWoS es ciertamente poderoso, ¿no funcionaría sin él? ¿Pueden hacerlo otros fabricantes?

Sin mencionar que Lao Huang ya ha declarado que "no consideraremos agregar una segunda fundición H100".

En realidad, podría no ser posible.

Nvidia ha cooperado con Samsung antes, pero este último nunca ha producido productos de la serie H100 para Nvidia, ni siquiera otros chips de proceso de 5 nm.

En base a esto, algunas personas especulan que el nivel técnico de Samsung puede no ser capaz de satisfacer las necesidades tecnológicas de Nvidia para GPU de última generación.

En cuanto a Intel... sus productos de 5nm no parecen salir todavía.

Dado que no es factible cambiar el fabricante de Lao Huang, ¿qué tal si los usuarios cambian directamente a AMD?

AMD，Sí？

Solo en términos de rendimiento, AMD se está poniendo al día lentamente.

El último MI300X de AMD tiene 192 GB de memoria HBM3, un ancho de banda de 5,2 TB/s y puede ejecutar 80 000 millones de modelos de parámetros.

La DGX GH200 que acaba de lanzar Nvidia tiene una memoria de 141GB de HBM3e y un ancho de banda de 5TB/s.

Pero esto no significa que AMD pueda llenar inmediatamente la vacante de la tarjeta N——

El verdadero "foso" de Nvidia se encuentra en la plataforma CUDA.

###

CUDA ha establecido un ecosistema de desarrollo completo, lo que significa que si los usuarios compran productos AMD, la depuración llevará más tiempo.

Un ejecutivo de una empresa de nube privada dijo que nadie se atrevería a gastar 300 millones de dólares para implementar 10 000 GPU AMD de forma experimental.

El ejecutivo cree que el ciclo de desarrollo y depuración puede demorar al menos dos meses.

En el contexto de la rápida sustitución de los productos de IA, una brecha de dos meses puede ser fatal para cualquier fabricante.

Sin embargo, Microsoft extendió una rama de olivo a AMD.

Anteriormente, hubo rumores de que Microsoft se estaba preparando para desarrollar conjuntamente con AMD un chip de IA con el nombre en código "Athena".

Anteriormente, cuando se lanzó MI200, Microsoft fue el primero en anunciar la compra e implementarla en su plataforma en la nube Azure.

Por ejemplo, la nueva infraestructura de modelo grande RetNet de MSRA se capacitó en 512 AMD MI200 hace un tiempo.

En la situación en la que Nvidia ocupa casi todo el mercado de IA, es posible que alguien deba tomar la iniciativa, y todo el clúster de potencia informática de AMD a gran escala debe crearse un prototipo antes de que alguien se atreva a seguir.

Sin embargo, en un corto período de tiempo, Nvidia H100 y A100 siguen siendo las opciones más populares.

Una cosa más

Hace un tiempo, cuando Apple lanzó el nuevo chip M2 Ultra que admite hasta 192 GB de memoria**, muchos profesionales disfrutaron usándolo para ajustar modelos grandes.

Después de todo, la memoria y la memoria de video de los chips de la serie M de Apple están unificadas, la memoria de 192 GB es una memoria de video de 192 GB, que es 2,4 veces la de 80 GB H100 u 8 veces la de 24 GB RTX4090.

Sin embargo, después de que alguien realmente compró esta máquina, la prueba real y la velocidad de entrenamiento** no son tan buenas como las de Nvidia RTX3080TI**, el ajuste fino no es rentable, y mucho menos el entrenamiento.

Después de todo, la potencia informática de los chips de la serie M no está específicamente optimizada para la informática de IA, y la memoria de video Everbright es inútil.

Parece que depende principalmente de H100 para refinar el modelo grande, y H100 es algo que no se puede pedir.

Ante esta situación, incluso circula por Internet una mágica "canción GPU"**.

Muy lavado de cerebro, entrar con precaución.

, duración 04:10

Canción de GPU en casa

Link de referencia: [1] [2] [3] [4] [5] [6] [7] [8] [9]

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.