¡La hoja de ruta de 25 años de NVIDIA explotó! El viejo Huang Hao apostó por B100 para vencer a AMD, y el arma secreta X100 quedó expuesta

巴比特_

2023-10-11 07:03:01

Fuente original: Shin Ji Yuan

Fuente de la imagen: Generado por Unbounded AI

¡La hegemonía del hardware de IA de NVIDIA ha sido durante demasiado tiempo!

Ahora, las grandes empresas tecnológicas están a la espera de derrocar su supremacía.

Por supuesto, Nvidia no se quedará quieta.

Recientemente, el medio extranjero SemiAnalysis reveló una hoja de ruta de hardware para NVIDIA en los próximos años, incluidas las tan esperadas GPU H200, B100 y "X100".

Con eso, hay información concreta, incluido el plan de tecnología de procesos de NVIDIA, la velocidad/capacidad de HBM3E, PCIe 6.0, PCIe 7.0, NVLink, el plan SerDes de 1.6T 224G.

Si estos planes funcionan como se espera, Nvidia continuará aplastando con éxito a sus oponentes.

Por supuesto, la posición de supremacía no es tan buena: el MI300 de AMD, el MI400, el Trainium 2 de Amazon, el Athena de Microsoft, el Gaudi 3 de Intel, no mejorarán a Nvidia.

¡Prepárate, el ataque de alta energía que te espera!

NVIDIA, más que solo quiere ser una potencia hegemónica del hardware

Google ya ha comenzado a diseñar su propia infraestructura de IA, y los TPUv5 y TPUv5e que construyeron se pueden usar tanto para el entrenamiento interno y la inferencia, como para clientes externos como Apple, Anthropic, CharacterAI y MidJourney.

Google no es la única amenaza de Nvidia.

En cuanto al software, PyTorch 2.0 de Meta y Triton de OpenAI también están en auge, lo que lo hace compatible con otros proveedores de hardware.

Hoy en día, la brecha de software se mantiene, pero no es tan grande como antes.

En cuanto a la pila de software, las GPU de AMD, Gaudi de Intel, MTIA de Meta y Athena de Microsoft han alcanzado cierto grado de desarrollo.

Aunque NVIDIA aún mantiene su posición de liderazgo en hardware, la brecha se cerrará cada vez más rápido.

La NVIDIA H100 no dominará por mucho tiempo.

En los próximos meses, tanto el MI300 de AMD como el Gaudi 3 de Intel lanzarán productos de hardware que son técnicamente superiores al H100.

Además de oponentes difíciles como Google, AMD e Intel, hay algunas empresas que también han ejercido mucha presión sobre NVIDIA.

Aunque estas empresas se están quedando atrás temporalmente en el diseño de hardware, pueden obtener subsidios de los gigantes que las respaldan: el mundo ha sufrido por NVIDIA durante mucho tiempo, y estas empresas esperan romper el enorme monopolio de ganancias de NVIDIA sobre HBM.

Los próximos Trainium2 e Inferentia3 de Amazon, y el próximo Athena de Microsoft, son inversiones que han estado en marcha durante años.

Los competidores son amenazantes, y Nvidia ciertamente no se quedará quieta.

En opinión de los medios extranjeros SemiAnalysis, independientemente del estilo de gestión o de la toma de decisiones de la ruta, NVIDIA es "una de las empresas más dudosas de la industria".

Y Huang Jenxun encarna el espíritu de Andy Grove.

El éxito conduce a la complacencia. La complacencia conduce al fracaso. Sólo la paranoia sobrevive.

Para asegurar la primera posición, NVIDIA es ambiciosa y adopta una estrategia aventurera múltiple.

Ya no desdeñan competir con Intel y AMD en el mercado tradicional, sino que quieren convertirse en gigantes tecnológicos como Google, Microsoft, Amazon, Meta y Apple.

La nube DGX, el software y la estrategia de adquisición de NVIDIA para campos no semiconductores son grandes piezas de ajedrez detrás.

** ¡Últimos detalles de la hoja de ruta expuestos! **

Se han expuesto detalles importantes de la última hoja de ruta de NVIDIA.

Los detalles incluyen nodos de red, memoria, empaquetado y proceso, varias GPU, selección de SerDes, PCIe 6.0, óptica coempaquetada y conmutadores ópticos.

Obviamente, bajo la presión competitiva de Google, Amazon, Microsoft, AMD e Intel, NVIDIA aceleró el desarrollo de B100 y X100 de la noche a la mañana.

B100: Tiempo de comercialización por encima de todo

Según fuentes internas, el B100 de NVIDIA se producirá en masa en el tercer trimestre de 2024, y algunas de las primeras muestras se enviarán en el segundo trimestre de 2024.

En términos de rendimiento y TCO, ya sea el Trainium 2 de Amazon, el TPUv5 de Google, el MI300X de AMD, el Gaudi 3 de Intel o el Athena de Microsoft, es débil en comparación con él.

Incluso teniendo en cuenta los subsidios de los socios de diseño, AMD o TSMC, no pueden superarlos a todos.

Para llevar la B100 al mercado lo más rápido posible, NVIDIA hizo muchas concesiones.

Por ejemplo, NVIDIA quería establecer el consumo de energía en un nivel más alto (1000W), pero al final, optaron por seguir usando los 700W de la H100.

De esta manera, el B100 puede seguir utilizando la tecnología refrigerada por aire cuando se lance.

Además, en la primera serie B100, NVIDIA también insistirá en usar PCIe 5.0.

La combinación de 5.0 y 700 W significa que se puede conectar directamente a los servidores H100 HGX existentes, lo que mejora en gran medida la capacidad de la cadena de suministro y adelanta la producción y el envío.

Parte de la razón de la decisión de seguir con la versión 5.0 es que AMD e Intel todavía están muy atrasadas en la integración de PCIe 6.0. E incluso el propio equipo interno de Nvidia no está listo para usar CPU PCIe 6.0.

Además, utilizarán enlaces más rápidos de estilo C2C.

En el futuro, ConnectX-8 estará equipado con un conmutador PCIe 6.0 integrado, pero nadie está listo todavía.

Broadcom y AsteraLabs no tendrán sus retemporizadores PCIe6.0 listos para la producción hasta finales de año, y dado el tamaño de estos sustratos, solo se necesitarán más retemporizadores.

Esto también significa que el B100 original estará limitado a 3.2T, y la velocidad al usar ConnectX-7 solo será de 400G, en lugar de 800G por GPU reclamada por NVIDIA en el PPT.

Si mantiene el aire fresco y la alimentación, PCIe y las velocidades de red constantes, es fácil de fabricar e implementar.

Más adelante, NVIDIA lanzará una versión B100 de 1.000W+ que requiere refrigeración por agua.

Esta versión del B100 proporcionará una conexión de red completa de 800G por GPU a través de ConnectX-8.

Para Ethernet/InfiniBand, estos SerDes siguen siendo 8x100G.

Si bien la velocidad de red por GPU se ha duplicado, la cardinalidad se ha reducido a la mitad porque todavía necesitan pasar por el mismo conmutador de 51.2T. El interruptor 102.4T ya no se utilizará en la generación B100.

Curiosamente, se ha informado que el componente NVLink en el B100 usará 224G SerDes, y si NVIDIA realmente puede hacer esto, sin duda es una gran mejora.

La mayoría de la gente del sector está de acuerdo en que el 224G no es fiable y es poco probable que ocurra en 2024, excepto por la gente de Nvidia.

Ya sabes, ya sea Google, Meta o Amazon, su objetivo de producción en masa del acelerador de IA 224G está establecido para 2026/2027.

Si NVIDIA logra esto en 2024/2025, seguramente superará a sus oponentes.

Se informa que B100 sigue siendo el N4P de TSMC, no una tecnología basada en el proceso de 3nm.

Obviamente, para un tamaño de chip tan grande, el proceso de 3 nm de TSMC aún no está maduro.

Según el tamaño del sustrato revelado por el proveedor de sustratos de NVIDIA, Ibiden, NVIDIA parece haber cambiado a un diseño que consta de 2 MCM monolíticos de gran tamaño que contienen 8 o 12 pilas HBM.

Los chips de SambaNova e Intel del próximo año utilizan diseños macro similares.

La razón por la que NVIDIA no utiliza tecnología de unión híbrida como AMD es porque necesitan una producción en masa y el costo es una gran preocupación para ellos.

Según SemiAnalysis, la capacidad de memoria de estos dos chips B100 será similar o superior a la del MI300X de AMD, alcanzando una pila de 24 GB.

La versión refrigerada por aire del B100 puede alcanzar velocidades de hasta 6,4 Gbps, mientras que la versión refrigerada por líquido puede alcanzar hasta 9,2 Gbps.

Además, NVIDIA también mostró el GB200 y el B40 en la hoja de ruta.

Tanto el GB200 como el GX200 usan G, que obviamente es un marcador de posición, ya que NVIDIA introducirá una nueva CPU basada en la arquitectura Arm. No usaré Grace por mucho tiempo.

Es probable que el B40 tenga la mitad del tamaño del B100, con solo un chip monolítico N4P y HBM con hasta 4 o 6 capas. A diferencia del L40S, esto tiene sentido para la inferencia en modelos pequeños.

"X100": Golpe crítico

Lo más llamativo de la hoja de ruta expuesta es el calendario "X100" de NVIDIA.

Curiosamente, encaja perfectamente con el programa actual del MI400 de AMD. Apenas un año después del lanzamiento del H100, AMD lanzó su estrategia MI300X.

El empaquetado de AMD del MI300X es impresionante, y le meten más cómputo y memoria, con la esperanza de superar al H100 de hace un año y, por lo tanto, superar a Nvidia en hardware puro.

Nvidia también descubrió que su lanzamiento bienal de nuevas GPU daba a los competidores una gran oportunidad para hacerse con el mercado.

Nvidia, que tiene prisa, está acelerando el ciclo del producto a una vez al año, sin dar ninguna oportunidad a sus oponentes. Por ejemplo, planean lanzar el X100 en 2025, solo un año después del B100.

Por supuesto, el "X100" aún no está en producción en masa (a diferencia del B100), por lo que todo está todavía en el aire.

Ya sabes, en el pasado, NVIDIA nunca ha hablado de productos posteriores a la próxima generación de productos, y esta vez ya no tiene precedentes.

Además, lo más probable es que el nombre no se llame "X100".

Nvidia ha sido durante mucho tiempo la tradición de nombrar las GPU en honor a destacadas científicas como Ada Lovelace, Grace Hopper y Elizabeth Blackwell.

En cuanto a "X", la única lógica es Xie Xide, quien estudia la estructura de semiconductores y tiras de metal, pero teniendo en cuenta su identidad, la probabilidad debería ser pequeña.

Maestro de la cadena de suministro: la gran apuesta de Lao Huang

Desde el inicio de NVIDIA, Jensen Huang ha estado impulsando activamente el dominio de la cadena de suministro para respaldar objetivos de crecimiento masivo.

No solo están dispuestos a asumir pedidos no cancelables (hasta 11.150 millones de dólares en compromisos de compra, capacidad e inventario), sino que también tienen un acuerdo de pago inicial de 3.810 millones de dólares.

Podría decirse que ningún proveedor por sí solo puede igualarlo.

Y la historia de Nvidia ha demostrado más de una vez que pueden aumentar creativamente la oferta cuando la oferta es escasa.

Diálogo entre Huang Jenxun y Zhang Zhongmou en 2007

Cuando Zhang Zhongmou y yo nos conocimos en 1997, Nvidia, que solo tenía 100 personas, había obtenido 27 millones de dólares en ingresos ese año.
Puede que no lo creas, pero Zhang Zhongmou solía llamar para pedir ventas y visitaba su puerta. Y le explicaré a Zhang lo que hace NVIDIA y qué tan grandes deben ser nuestros chips, y se harán más grandes cada año.
Más tarde, NVIDIA fabricó un total de 127 millones de obleas. Desde entonces, NVIDIA ha crecido casi un 100% cada año, hasta ahora. Es decir, en los últimos 10 años, la tasa de crecimiento anual compuesta ha alcanzado alrededor del 70%.

En ese momento, Zhang no podía creer que Nvidia necesitara tantas obleas, pero Huang perseveró.

NVIDIA ha logrado un gran éxito experimentando con el lado de la oferta. Si bien amortizan miles de millones de dólares en inventario de vez en cuando, aún obtienen ganancias positivas de los pedidos excesivos.

Esta vez, NVIDIA se apoderó directamente de la mayor parte del suministro de componentes ascendentes de la GPU:

Hicieron pedidos muy grandes a tres proveedores de HBM, SK Hynix, Samsung y Micron, desplazando el suministro de todos, excepto Broadcom y Google. Al mismo tiempo, también compró la mayor parte del suministro de TSMC CoWoS, así como la capacidad de producción de Amkor.

Además, NVIDIA aprovecha los componentes posteriores requeridos por las placas y servidores HGX, como retemporizadores, DSP, ópticas y más.

Si el proveedor hace oídos sordos a los requisitos de NVIDIA, entonces se enfrentará al "rábano y palo" de Lao Huang.

Por un lado, recibirán pedidos inimaginables de NVIDIA; Por otro lado, NVIDIA puede eliminarlos de la cadena de suministro existente.

Por supuesto, NVIDIA también utiliza pedidos comprometidos y no cancelables solo si el proveedor es crítico y no se puede eliminar o diversificar el suministro.

Cada proveedor parece considerarse un ganador en IA, en parte porque NVIDIA ha realizado una gran cantidad de pedidos a todos sus proveedores, y todos piensan que ganan la mayor parte del negocio. Pero en realidad, es solo porque NVIDIA está creciendo demasiado rápido.

Volviendo a la dinámica del mercado, mientras que Nvidia pretende alcanzar más de 70.000 millones de dólares en ventas de centros de datos el próximo año, sólo Google tiene suficiente capacidad upstream, con más de 1 millón de dispositivos. La capacidad de producción total de AMD en el campo de la IA sigue siendo muy limitada, con un máximo de solo unos pocos cientos de miles de unidades.

Estrategia de Negocio: Potencial Anticompetitivo

Como todos sabemos, NVIDIA está aprovechando la enorme demanda de GPU para comercializar y vender productos a los clientes.

Hay una gran cantidad de información en la cadena de suministro que NVIDIA proporciona a ciertas empresas en función de una serie de factores. Incluidos, entre otros: plan de adquisiciones diversificado, investigación y desarrollo independientes del plan de chips de IA, compra de DGX, NIC, conmutador y/o equipo óptico de NVIDIA, etc.

De hecho, el paquete de NVIDIA es muy exitoso. A pesar de ser un pequeño proveedor de transceptores de fibra óptica, su negocio se triplicó en un trimestre y se espera que envíe más de 1.000 millones de dólares el próximo año, superando con creces el crecimiento de sus propios negocios de GPU o chips de red.

Se puede decir que estas estrategias son bastante completas.

Por ejemplo, la única forma de implementar una red 3.2T y RDMA/RoCE confiable en los sistemas de NVIDIA es usar las NIC de NVIDIA. Por supuesto, por un lado, también se debe a que los productos de Intel, AMD y Broadcom son realmente poco competitivos, todavía están atascados en el nivel de 200G.

A través de la gestión de la cadena de suministro, NVIDIA también ha promovido el ciclo de entrega de las NIC InfiniBand de 400G, que puede ser significativamente más corto que las NIC Ethernet de 400G. Las dos NIC (ConnectX-7) son en realidad idénticas en el diseño del chip y la placa.

La razón de esto es la configuración de SKU de Nvidia, no el cuello de botella real de la cadena de suministro que obliga a las empresas a comprar conmutadores InfiniBand de mayor costo en lugar de conmutadores Ethernet estándar.

Y eso no es todo, solo mire lo obsesionada que está la cadena de suministro con las GPU L40 y L40S, y sabrá que Nvidia está jugando malas pasadas en la distribución nuevamente: para ganar más asignaciones de H100, los OEM necesitan comprar más L40S.

Esto es lo mismo que la operación de NVIDIA en el espacio de PC: los fabricantes de portátiles y los socios de AIB deben comprar G106/G107 más grandes (GPU de gama media/baja) para obtener las más escasas y de mayor margen G102/G104 (GPU de gama alta y emblemáticas).

Como resultado, las personas en la cadena de suministro también han sido adoctrinadas con la afirmación de que L40S es mejor que A100 porque tiene FLOPS más altos.

Pero en realidad, estas GPU no son adecuadas para la inferencia LLM, ya que tienen menos de la mitad del ancho de banda de memoria del A100 y no tienen NVLink.

Esto significa que ejecutar LLM en el L40S y lograr un buen TCO es casi imposible, excepto para modelos muy pequeños. El procesamiento a gran escala también da como resultado que los tokens asignados a cada usuario sean prácticamente inutilizables, lo que hace que los FLOPS teóricos sean inútiles en aplicaciones prácticas.

Además, la plataforma modular MGX de NVIDIA, si bien elimina el arduo trabajo de diseño del servidor, también reduce los márgenes de beneficio de los OEM.

Empresas como Dell, HP y Lenovo son claramente resistentes a MGX, pero empresas como Supermicro, Quanta, Asus, Gigabyte y otras se esfuerzan por llenar el vacío y comercializar la "IA empresarial" de bajo costo.

Y estos OEM / ODM involucrados en el bombo de L40S y MGX también pueden obtener una mejor asignación de productos de GPU de línea principal de NVIDIA.

Óptica co-empaquetada

En términos de CPO, NVIDIA también le da gran importancia.

Han estado trabajando en varias soluciones, incluidas las de Ayar Labs, así como las que ellos mismos obtienen de Global Foundries y TSMC.

En la actualidad, NVIDIA ha examinado los planes de CPO de varias startups, pero aún no ha tomado una decisión final.

El análisis cree que es probable que NVIDIA integre el CPO en el NVSwitch del "X100".

Porque la integración directa en la propia GPU puede ser demasiado costosa y difícil en términos de fiabilidad.

Interruptor de circuito óptico

Una de las mayores fortalezas de Google en infraestructura de IA es su conmutador óptico.

Al parecer, Nvidia está persiguiendo algo similar. En la actualidad, se han puesto en contacto con varias empresas y esperan cooperar en el desarrollo.

NVIDIA se dio cuenta de que Fat Tree había llegado a su fin al continuar expandiéndose, por lo que necesitaba otra topología.

A diferencia de la elección de Google de 6D Torus, Nvidia prefiere adoptar una estructura Dragonfly.

Se entiende que NVIDIA aún está lejos del envío de OCS, pero esperan acercarse a este objetivo en 2025, pero no se puede lograr la probabilidad.

OCS + CPO es el santo grial, especialmente cuando OCS se puede implementar por paquete, lo que cambiará directamente el juego del juego.

Sin embargo, nadie ha demostrado aún esta capacidad, ni siquiera Google.

Aunque el OCS y el CPO de NVIDIA son solo dos conjuntos de PPT en el departamento de investigación, los analistas creen que el CPO estará un paso más cerca de la producción en 2025-2026.

Recursos:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1BTC & ETH Launchpool Yield Exceeds 3%
2k Popularidad
2Alpha Points System Opens
6k Popularidad
3Ethereum 10th Anniversary
11k Popularidad
4ETF In-Kind Mechanism
4k Popularidad
5ate ETH 10th Anniversary Investment Zone
19k Popularidad

Anclado