Después de que se anunció el último informe financiero trimestral de Nvidia, AMD no solo silenció a Intel y derramó lágrimas, sino que los analistas que habían realizado una construcción psicológica a largo plazo no esperaban que la situación real superara las expectativas.
Lo que es aún más aterrador es que los ingresos de Nvidia se dispararon un 854% interanual, en gran parte porque "sólo puede vender una cantidad limitada" en lugar de "vender una cantidad limitada". Detrás de muchos pequeños ensayos sobre "startups que toman hipotecas H100" se refleja el hecho de que la oferta de GPU H100 es escasa.
Si la escasez continúa hasta finales de este año, el desempeño de Nvidia puede ser aún más impactante.
La escasez de H100 recuerda a hace unos años, cuando las GPU se agotaron debido al aumento vertiginoso de las criptomonedas y los jugadores regañaron sangrientamente a Nvidia. Sin embargo, la escasez de tarjetas gráficas en aquel entonces se debía en gran medida a una prima irrazonable, mientras que la escasez de H100 se debía a la capacidad de producción limitada y no se podían comprar a un precio más alto.
En otras palabras, Nvidia siguió ganando menos dinero.
En la conferencia telefónica del día en que se publicó el informe financiero, "capacidad" naturalmente se convirtió en la palabra más frecuente. En este sentido, la redacción de Nvidia es rigurosa, y se muestra decidida a no llevarse el bote que no se debe llevar:
"En términos de cuota de mercado, no es algo que podamos lograr solos, sino que debe abarcar a muchos proveedores diferentes".
De hecho, sólo hay dos de los "muchos proveedores diferentes" que llama Nvidia:
SK Hynix y TSMC.
HBM: El juego coreano
Si sólo nos fijamos en la proporción de área, un chip H100 sólo alrededor del 50% pertenece a Nvidia.
En la vista de la sección transversal del chip, el troquel H100 ocupa la posición central, con tres pilas de HBM a cada lado, y el área combinada es equivalente al troquel H100.
Estos seis chips de memoria mediocres son uno de los culpables de la escasez de suministro del H100.
HBM (High Bandwidth Memory) se traduce literalmente como memoria de gran ancho de banda, que asume parte de la memoria de la GPU.
A diferencia de la memoria DDR tradicional, HBM esencialmente apila múltiples memorias DRAM verticalmente, lo que no solo aumenta la capacidad de la memoria, sino que también puede controlar el consumo de energía y el área del chip de la memoria, y reducir el espacio ocupado dentro del paquete.
La "memoria apilada" estaba originalmente dirigida al mercado de teléfonos inteligentes, que es muy sensible al área del chip y la generación de calor, pero el problema es que debido al alto costo de producción, los teléfonos inteligentes finalmente eligieron la ruta LPDDR más rentable, lo que resultó en una tecnología vacía. para memoria apilada Reservado, pero no pude encontrar la escena del aterrizaje.
Hasta 2015, AMD, cuya cuota de mercado estaba perdiendo terreno, esperaba aprovechar la popularidad de los juegos 4K para copiar una ola de Nvidia.
En la serie de GPU AMD Fiji lanzada ese año, AMD adoptó la memoria apilada desarrollada conjuntamente con SK Hynix y la llamó HBM (High Bandwidth Memory).
La visión de AMD es que los juegos 4K requieren una mayor eficiencia en el rendimiento de datos, y las ventajas del gran ancho de banda de la memoria HBM se pueden reflejar. En ese momento, la tarjeta gráfica Radeon R9 Fury X de AMD superó a la nueva arquitectura Nvidia Kepler en términos de rendimiento del papel.
Pero el problema es que la mejora del ancho de banda aportada por HBM es obviamente difícil de compensar su propio alto costo, por lo que no se ha popularizado.
Hasta 2016, AlphaGo arrasó con el campeón de ajedrez Li Shishi y nació el aprendizaje profundo, que hizo que la memoria de HBM entrara en juego.
El núcleo del aprendizaje profundo es entrenar el modelo a través de datos masivos, determinar los parámetros en la función e incorporar los datos reales a la decisión para obtener la solución final.
En teoría, cuanto mayor es la cantidad de datos, más confiables son los parámetros de la función, lo que hace que el entrenamiento de IA tenga una búsqueda casi patológica del rendimiento de datos y el retraso en la transmisión de datos, y este es exactamente el problema que resuelve la memoria HBM.
En 2017, AlphaGo volvió a luchar contra Ke Jie y el chip fue reemplazado por un TPU desarrollado por el propio Google. En términos de diseño de chips, cada generación de TPU a partir de la segunda generación adopta el diseño de HBM. La nueva GPU Tesla P100 de Nvidia para centros de datos y aprendizaje profundo está equipada con la segunda generación de memorias HBM (HBM2).
Como casi todos los chips GPU del mercado de la informática de alto rendimiento están equipados con memoria HBM, la competencia entre los gigantes del almacenamiento en torno a HBM también se está desarrollando rápidamente.
En la actualidad, sólo hay tres gigantes de la memoria en el mundo que pueden producir HBM en masa: SK Hynix, Samsung Electronics y Micron.
SK Hynix es uno de los inventores de HBM, y actualmente es el único fabricante que produce en masa HBM3E (HBM de tercera generación); Samsung Electronics entró al mercado con HBM2 (HBM de segunda generación), y es el primer proveedor de GPU de Nvidia. usando HBM; Micron El más rezagado, solo cambió de HMC a HBM en 2018, y la producción en masa de HBM2 comenzó a mediados de 2020.
Entre ellos, SK Hynix monopoliza el 50% de la cuota de mercado de HBM, y su suministro exclusivo de HBM3E a Nvidia ha bloqueado firmemente el envío de H100:
Las versiones H100 PCIe y SXM utilizan 5 pilas HBM, la versión H100S SXM puede llegar a 6 y la versión H100 NVL impulsada por Nvidia ha llegado a 12. Según el desmantelamiento de la institución de investigación, el coste de una sola pila HBM de 16 GB asciende a 240 dólares. Entonces, el coste del chip de memoria NVL H100 por sí solo es de casi 3.000 dólares estadounidenses.
El costo sigue siendo un pequeño problema. Teniendo en cuenta que Google TPU v5 y AMD MI300, que compiten directamente con el H100, pronto se producirán en masa, y los dos últimos también usarán HBM3E, Chen Neng está aún más presionado.
Ante el aumento de la demanda, se dice que SK Hynix se ha fijado el pequeño objetivo de duplicar su capacidad de producción y ha comenzado a ampliar las líneas de producción. Samsung y Micron también se están preparando para HBM3E, pero en la industria de los semiconductores, ampliar las líneas de producción nunca ha sido posible. se ha logrado de la noche a la mañana.
Según la previsión optimista del ciclo de 9 a 12 meses, la capacidad de producción de HBM3E no se repondrá hasta al menos el segundo trimestre del próximo año.
Además, incluso si se resuelve la capacidad de producción de HBM, la cantidad que puede suministrar H100 depende de la cara de TSMC.
CoWoS: la espada de TSMC
El analista Robert Castellano hizo un cálculo no hace mucho: el H100 se produce mediante el proceso 4N (5 nm) de TSMC, y el precio de una oblea de 12 pulgadas con proceso 4N es de 13.400 dólares. En teoría, se pueden cortar 86 chips H100.
Si no se tiene en cuenta el rendimiento de la producción, por cada H100 producido, TSMC puede ganar 155 dólares en ingresos. [6] 。
Pero, de hecho, es probable que los ingresos que cada H100 aporta a TSMC superen los 1000 dólares EE.UU. La razón es que el H100 utiliza la tecnología de embalaje CoWoS de TSMC y los ingresos generados por el embalaje llegan a los 723 dólares EE.UU. [6] 。
Cada H100 que salga de la línea de producción N4/N5 de la fábrica número 18 de TSMC se enviará a la segunda fábrica de pruebas y embalaje avanzado de TSMC en el mismo parque para completar el paso más especial y crucial en la fabricación del H100: CoWoS.
Para comprender la importancia del empaquetado CoWoS, todavía tenemos que comenzar con el diseño del chip H100.
En los productos GPU de consumo, los chips de memoria generalmente están empaquetados alrededor del núcleo de la GPU y las señales se transmiten a través de circuitos entre placas PCB.
Por ejemplo, en la imagen a continuación, Nvidia también produce el chip RTX4090. El núcleo de la GPU y la memoria GDDR están empaquetados por separado y ensamblados en una placa PCB, independientes entre sí.
Tanto la GPU como la CPU siguen la arquitectura de von Neumann, y su núcleo radica en la "separación de almacenamiento y cálculo", es decir, cuando el chip procesa datos, necesita recuperar datos de la memoria externa y luego transferirlos a La memoria después de completar el cálculo causará un retraso en el cálculo. Al mismo tiempo, se limitará en consecuencia la "cantidad" de transferencias de datos.
La relación entre GPU y memoria se puede comparar con Pudong y Puxi en Shanghai. El transporte de materiales (datos) entre los dos lugares depende del Puente Nanpu. La capacidad de carga del Puente Nanpu determina la eficiencia del transporte de materiales. Esta capacidad de carga es la ancho de banda de la memoria, que determina Afecta la velocidad de transmisión de datos e indirectamente afecta la velocidad de computación de la GPU.
De 1980 a 2000, el "desajuste de velocidad" entre la GPU y la memoria aumentó a un ritmo del 50% anual. En otras palabras, incluso si se construyen los túneles de carretera Longyao y Shangzhong, no podrán hacer frente al crecimiento del transporte de materiales entre Pudong y Puxi, lo que ha provocado que el ancho de banda se convierta en un cuello de botella cada vez más evidente en la informática de alto rendimiento. escenarios.
La brecha entre el rendimiento de la CPU/GPU y el rendimiento de la memoria se está ampliando
En 2015, además de aplicar la memoria HBM, AMD también adoptó una solución innovadora para la transmisión de datos: combinar Pudong y Puxi.
En pocas palabras, la tarjeta gráfica de arquitectura Fiji de 2015 "unió" la memoria HBM y el núcleo de la GPU, convirtiendo varios chips pequeños en un chip completamente grande. De esta forma, se duplica la eficiencia del rendimiento de datos.
Sin embargo, como se mencionó anteriormente, debido a problemas técnicos y de costo, la arquitectura Fiji de AMD no permitió que el mercado la comprara. Sin embargo, la explosión del aprendizaje profundo y la búsqueda de la eficiencia del procesamiento de datos por parte del entrenamiento de IA, independientemente del costo, han hecho que la "unión de chips" sea útil.
Además, la idea de AMD es buena, pero también trae un nuevo problema: no importa cuántas ventajas tenga HBM, debe cooperar con la tecnología de empaque avanzada del "chip de costura", y los dos están estrechamente relacionados.
Si se dice que la memoria de HBM todavía se puede comparar con tres empresas, entonces el paquete avanzado utilizado en el "chip de costura" parece ser el único que puede fabricar TSMC.
CoWoS es el punto de partida del negocio de embalaje avanzado de TSMC y Nvidia es la primera empresa de chips en adoptar esta tecnología.
CoWoS es una combinación de CoW y oS: CoW significa Chip on Wafer, que se refiere al proceso de ensamblar chips desnudos en una oblea, y oS significa on Substrate, que significa el proceso de empaquetamiento sobre un sustrato.
El embalaje tradicional generalmente solo tiene el enlace OS. Una vez que la fundición completa la fabricación de la oblea, se entrega a una fábrica de embalaje y pruebas de terceros para su resolución. Sin embargo, el enlace CoW agregado por el embalaje avanzado no se puede resolver mediante el embalaje y las pruebas. fábrica.
Tomando como ejemplo un chip H100 completo, se distribuyen varias pilas HBM alrededor del troquel H100, que se unen mediante tecnología CoW. Pero no sólo empalme, sino comunicación entre el dado y la pila al mismo tiempo.
CoW de TSMC se diferencia de otros envases avanzados en que coloca el troquel y la pila en un intercalador de silicio (esencialmente una oblea) e interconecta canales en el intercalador para realizar la comunicación entre el troquel y la pila.
Al igual que el EMIB de Intel, la diferencia es que está interconectado a través de un puente de silicio. Sin embargo, el ancho de banda es mucho menor que el del intercalador de silicio. Teniendo en cuenta que el ancho de banda está estrechamente relacionado con la velocidad de transmisión de datos, CoWoS se ha convertido en la única opción para H100.
Esta es otra parte que está estancada en la capacidad de producción de H100.
Aunque el efecto de CoWoS es contra el cielo, el altísimo precio de 4.000-6.000 dólares por pieza todavía detiene a muchas personas, incluida Apple, que es extremadamente rica. Por tanto, la capacidad de producción preparada de TSMC es bastante limitada.
Sin embargo, la ola de IA estalló repentinamente y el equilibrio entre oferta y demanda se rompió instantáneamente.
Ya en junio, hubo rumores de que la demanda de CoWoS de Nvidia este año había alcanzado las 45.000 obleas, mientras que la estimación de TSMC a principios de año era de 30.000 obleas.Junto con las necesidades de otros clientes, la brecha de capacidad de producción superó el 20%.
Para compensar la brecha, la batalla de TSMC no es pequeña.
En junio, TSMC inauguró oficialmente la sexta fábrica de pruebas y embalaje avanzado en Nanke. La sala limpia por sí sola es más grande que el resto de las fábricas de pruebas y embalaje juntas. También prometió aumentar la capacidad de producción de CoWoS trimestre a trimestre. Por esta razón, parte del sistema operativo se subcontrata a un tercero Fábrica de embalaje y pruebas.
Pero así como no es fácil para HBM ampliar la producción, a TSMC le llevará tiempo hacerlo. Actualmente, el plazo de entrega de algunos equipos y componentes de embalaje oscila entre 3 y 6 meses y aún se desconoce cuánta nueva capacidad de producción se podrá abrir antes de fin de año.
##Plan B que no existe
Ante la escasez estructural de H100, Nvidia no se queda sin Plan B.
En la conferencia telefónica posterior a la publicación del informe financiero, Nvidia reveló que la capacidad de producción de CoWoS ya ha sido certificada por otros proveedores. Aunque no dije quién es, considerando el umbral técnico del paquete avanzado, además de TSMC, solo el EMIB congénitamente deficiente de Intel y el I-Cube de Samsung, que se ha estado desarrollando durante mucho tiempo y ha estado esperando clientes, pueden apenas combatimos el fuego.
Sin embargo, reemplazar la tecnología central es como cambiar de general antes de la batalla. Como AMD MI300 está a punto de ser producido y enviado en masa, la competencia por los chips de IA es feroz. Me temo que a Huang Renxun también le preocupa si podrá integrar con la tecnología de Intel y Samsung.
Más ansiosos que Huang Renxun pueden estar los proveedores de servicios en la nube y las nuevas empresas de inteligencia artificial que no pueden comprar H100. Después de todo, los jugadores no pueden conseguir la tarjeta gráfica, es decir, el número de fotogramas del juego es 20 fotogramas menos; las grandes empresas no pueden conseguir la H100 y pueden perder miles de millones en ingresos y decenas de miles de millones en valoración.
Hay tres tipos principales de empresas que necesitan H100: proveedores de servicios en la nube como Microsoft y Amazon; empresas de nueva creación como Anthropic y OpenAI; y grandes empresas de tecnología como Tesla. GPU cluster para capacitación.
Esto no incluye empresas financieras como Citadel ni empresas chinas que no pueden comprar la versión especial del H800.
Según el cálculo de GPU Utils [7] Según una estimación conservadora, el actual déficit de suministro de H100 alcanzó los 430.000.
Aunque existen alternativas teóricas al H100, ninguna de ellas es viable en situaciones prácticas.
Por ejemplo, el producto predecesor del H100, el A100, cuesta sólo aproximadamente 1/3 del precio del H100. Pero el problema es que el rendimiento del H100 es mucho mayor que el del A100, lo que resulta en una mayor potencia informática por costo unitario del H100 que del A100. Teniendo en cuenta que las empresas de tecnología empiezan a comprar cientos o miles de copias, comprar el A100 es aún peor.
AMD es otra alternativa, y el rendimiento sobre el papel no se queda atrás del H100. Sin embargo, debido a las barreras del ecosistema CUDA de Nvidia, es probable que el uso de la GPU de AMD alargue el ciclo de desarrollo, y es probable que los competidores que usan H100 abran una brecha consigo mismos debido a esta diferencia horaria, e incluso inviertan cientos de Millones de dólares sin retorno.
Por varias razones, un chip con un costo total de material de 3.000 dólares estadounidenses, Nvidia agregó directamente un artículo minorista y todos se apresuraron a comprarlo. Esto puede ser algo que el propio Huang Renxun no esperaba.
Antes de que mejore la capacidad de producción de HBM y CoWoS, puede que solo haya una forma de comprar H100:
Espere a que las nuevas empresas que compraron un montón de H100 cierren alardeando y recaudando dinero, y luego tome sus GPU de segunda mano.
Referencias
[1] Restricciones de capacidad de IA: cadena de suministro de CoWoS y HBM, semianálisis
[2] La fábrica original está ampliando activamente su producción y se estima que la tasa de crecimiento anual del suministro de brocas de HBM será del 105% en 2024, TrendForce
[3] ¿Qué cambios traerá la tecnología de HBM al centro de datos? Industria de semiconductores vertical y horizontal.
[4] Empaquetado avanzado, parte II: Revisión de opciones/uso para Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla y Nvidia, semianálisis
[5] El cofundador de OpenAI y científico a tiempo parcial, Andrej Karpathy, tuiteó
[6] Taiwan Semiconductor: significativamente infravalorado como proveedor de chips y paquetes para Nvidia, SeekingAlpha
[7] GPU Nvidia H100: oferta y demanda, utilidades de GPU
Editor: Li Motian
Diseño visual: Shurui
Editor responsable: Li Motian
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¿Quién le pegó el cuello a Nvidia?
Original: Él Luheng
Fuente: Yuanchuan Technology Review** (ID: kechuangych)**
Después de que se anunció el último informe financiero trimestral de Nvidia, AMD no solo silenció a Intel y derramó lágrimas, sino que los analistas que habían realizado una construcción psicológica a largo plazo no esperaban que la situación real superara las expectativas.
Lo que es aún más aterrador es que los ingresos de Nvidia se dispararon un 854% interanual, en gran parte porque "sólo puede vender una cantidad limitada" en lugar de "vender una cantidad limitada". Detrás de muchos pequeños ensayos sobre "startups que toman hipotecas H100" se refleja el hecho de que la oferta de GPU H100 es escasa.
Si la escasez continúa hasta finales de este año, el desempeño de Nvidia puede ser aún más impactante.
La escasez de H100 recuerda a hace unos años, cuando las GPU se agotaron debido al aumento vertiginoso de las criptomonedas y los jugadores regañaron sangrientamente a Nvidia. Sin embargo, la escasez de tarjetas gráficas en aquel entonces se debía en gran medida a una prima irrazonable, mientras que la escasez de H100 se debía a la capacidad de producción limitada y no se podían comprar a un precio más alto.
En otras palabras, Nvidia siguió ganando menos dinero.
En la conferencia telefónica del día en que se publicó el informe financiero, "capacidad" naturalmente se convirtió en la palabra más frecuente. En este sentido, la redacción de Nvidia es rigurosa, y se muestra decidida a no llevarse el bote que no se debe llevar:
"En términos de cuota de mercado, no es algo que podamos lograr solos, sino que debe abarcar a muchos proveedores diferentes".
De hecho, sólo hay dos de los "muchos proveedores diferentes" que llama Nvidia:
SK Hynix y TSMC.
HBM: El juego coreano
Si sólo nos fijamos en la proporción de área, un chip H100 sólo alrededor del 50% pertenece a Nvidia.
En la vista de la sección transversal del chip, el troquel H100 ocupa la posición central, con tres pilas de HBM a cada lado, y el área combinada es equivalente al troquel H100.
Estos seis chips de memoria mediocres son uno de los culpables de la escasez de suministro del H100.
HBM (High Bandwidth Memory) se traduce literalmente como memoria de gran ancho de banda, que asume parte de la memoria de la GPU.
A diferencia de la memoria DDR tradicional, HBM esencialmente apila múltiples memorias DRAM verticalmente, lo que no solo aumenta la capacidad de la memoria, sino que también puede controlar el consumo de energía y el área del chip de la memoria, y reducir el espacio ocupado dentro del paquete.
La "memoria apilada" estaba originalmente dirigida al mercado de teléfonos inteligentes, que es muy sensible al área del chip y la generación de calor, pero el problema es que debido al alto costo de producción, los teléfonos inteligentes finalmente eligieron la ruta LPDDR más rentable, lo que resultó en una tecnología vacía. para memoria apilada Reservado, pero no pude encontrar la escena del aterrizaje.
Hasta 2015, AMD, cuya cuota de mercado estaba perdiendo terreno, esperaba aprovechar la popularidad de los juegos 4K para copiar una ola de Nvidia.
En la serie de GPU AMD Fiji lanzada ese año, AMD adoptó la memoria apilada desarrollada conjuntamente con SK Hynix y la llamó HBM (High Bandwidth Memory).
La visión de AMD es que los juegos 4K requieren una mayor eficiencia en el rendimiento de datos, y las ventajas del gran ancho de banda de la memoria HBM se pueden reflejar. En ese momento, la tarjeta gráfica Radeon R9 Fury X de AMD superó a la nueva arquitectura Nvidia Kepler en términos de rendimiento del papel.
Pero el problema es que la mejora del ancho de banda aportada por HBM es obviamente difícil de compensar su propio alto costo, por lo que no se ha popularizado.
Hasta 2016, AlphaGo arrasó con el campeón de ajedrez Li Shishi y nació el aprendizaje profundo, que hizo que la memoria de HBM entrara en juego.
El núcleo del aprendizaje profundo es entrenar el modelo a través de datos masivos, determinar los parámetros en la función e incorporar los datos reales a la decisión para obtener la solución final.
En teoría, cuanto mayor es la cantidad de datos, más confiables son los parámetros de la función, lo que hace que el entrenamiento de IA tenga una búsqueda casi patológica del rendimiento de datos y el retraso en la transmisión de datos, y este es exactamente el problema que resuelve la memoria HBM.
En 2017, AlphaGo volvió a luchar contra Ke Jie y el chip fue reemplazado por un TPU desarrollado por el propio Google. En términos de diseño de chips, cada generación de TPU a partir de la segunda generación adopta el diseño de HBM. La nueva GPU Tesla P100 de Nvidia para centros de datos y aprendizaje profundo está equipada con la segunda generación de memorias HBM (HBM2).
Como casi todos los chips GPU del mercado de la informática de alto rendimiento están equipados con memoria HBM, la competencia entre los gigantes del almacenamiento en torno a HBM también se está desarrollando rápidamente.
En la actualidad, sólo hay tres gigantes de la memoria en el mundo que pueden producir HBM en masa: SK Hynix, Samsung Electronics y Micron.
SK Hynix es uno de los inventores de HBM, y actualmente es el único fabricante que produce en masa HBM3E (HBM de tercera generación); Samsung Electronics entró al mercado con HBM2 (HBM de segunda generación), y es el primer proveedor de GPU de Nvidia. usando HBM; Micron El más rezagado, solo cambió de HMC a HBM en 2018, y la producción en masa de HBM2 comenzó a mediados de 2020.
Entre ellos, SK Hynix monopoliza el 50% de la cuota de mercado de HBM, y su suministro exclusivo de HBM3E a Nvidia ha bloqueado firmemente el envío de H100:
Las versiones H100 PCIe y SXM utilizan 5 pilas HBM, la versión H100S SXM puede llegar a 6 y la versión H100 NVL impulsada por Nvidia ha llegado a 12. Según el desmantelamiento de la institución de investigación, el coste de una sola pila HBM de 16 GB asciende a 240 dólares. Entonces, el coste del chip de memoria NVL H100 por sí solo es de casi 3.000 dólares estadounidenses.
El costo sigue siendo un pequeño problema. Teniendo en cuenta que Google TPU v5 y AMD MI300, que compiten directamente con el H100, pronto se producirán en masa, y los dos últimos también usarán HBM3E, Chen Neng está aún más presionado.
Ante el aumento de la demanda, se dice que SK Hynix se ha fijado el pequeño objetivo de duplicar su capacidad de producción y ha comenzado a ampliar las líneas de producción. Samsung y Micron también se están preparando para HBM3E, pero en la industria de los semiconductores, ampliar las líneas de producción nunca ha sido posible. se ha logrado de la noche a la mañana.
Según la previsión optimista del ciclo de 9 a 12 meses, la capacidad de producción de HBM3E no se repondrá hasta al menos el segundo trimestre del próximo año.
Además, incluso si se resuelve la capacidad de producción de HBM, la cantidad que puede suministrar H100 depende de la cara de TSMC.
CoWoS: la espada de TSMC
El analista Robert Castellano hizo un cálculo no hace mucho: el H100 se produce mediante el proceso 4N (5 nm) de TSMC, y el precio de una oblea de 12 pulgadas con proceso 4N es de 13.400 dólares. En teoría, se pueden cortar 86 chips H100.
Si no se tiene en cuenta el rendimiento de la producción, por cada H100 producido, TSMC puede ganar 155 dólares en ingresos. [6] 。
Pero, de hecho, es probable que los ingresos que cada H100 aporta a TSMC superen los 1000 dólares EE.UU. La razón es que el H100 utiliza la tecnología de embalaje CoWoS de TSMC y los ingresos generados por el embalaje llegan a los 723 dólares EE.UU. [6] 。
Cada H100 que salga de la línea de producción N4/N5 de la fábrica número 18 de TSMC se enviará a la segunda fábrica de pruebas y embalaje avanzado de TSMC en el mismo parque para completar el paso más especial y crucial en la fabricación del H100: CoWoS.
Para comprender la importancia del empaquetado CoWoS, todavía tenemos que comenzar con el diseño del chip H100.
En los productos GPU de consumo, los chips de memoria generalmente están empaquetados alrededor del núcleo de la GPU y las señales se transmiten a través de circuitos entre placas PCB.
Por ejemplo, en la imagen a continuación, Nvidia también produce el chip RTX4090. El núcleo de la GPU y la memoria GDDR están empaquetados por separado y ensamblados en una placa PCB, independientes entre sí.
Tanto la GPU como la CPU siguen la arquitectura de von Neumann, y su núcleo radica en la "separación de almacenamiento y cálculo", es decir, cuando el chip procesa datos, necesita recuperar datos de la memoria externa y luego transferirlos a La memoria después de completar el cálculo causará un retraso en el cálculo. Al mismo tiempo, se limitará en consecuencia la "cantidad" de transferencias de datos.
La relación entre GPU y memoria se puede comparar con Pudong y Puxi en Shanghai. El transporte de materiales (datos) entre los dos lugares depende del Puente Nanpu. La capacidad de carga del Puente Nanpu determina la eficiencia del transporte de materiales. Esta capacidad de carga es la ancho de banda de la memoria, que determina Afecta la velocidad de transmisión de datos e indirectamente afecta la velocidad de computación de la GPU.
De 1980 a 2000, el "desajuste de velocidad" entre la GPU y la memoria aumentó a un ritmo del 50% anual. En otras palabras, incluso si se construyen los túneles de carretera Longyao y Shangzhong, no podrán hacer frente al crecimiento del transporte de materiales entre Pudong y Puxi, lo que ha provocado que el ancho de banda se convierta en un cuello de botella cada vez más evidente en la informática de alto rendimiento. escenarios.
En 2015, además de aplicar la memoria HBM, AMD también adoptó una solución innovadora para la transmisión de datos: combinar Pudong y Puxi.
En pocas palabras, la tarjeta gráfica de arquitectura Fiji de 2015 "unió" la memoria HBM y el núcleo de la GPU, convirtiendo varios chips pequeños en un chip completamente grande. De esta forma, se duplica la eficiencia del rendimiento de datos.
Sin embargo, como se mencionó anteriormente, debido a problemas técnicos y de costo, la arquitectura Fiji de AMD no permitió que el mercado la comprara. Sin embargo, la explosión del aprendizaje profundo y la búsqueda de la eficiencia del procesamiento de datos por parte del entrenamiento de IA, independientemente del costo, han hecho que la "unión de chips" sea útil.
Además, la idea de AMD es buena, pero también trae un nuevo problema: no importa cuántas ventajas tenga HBM, debe cooperar con la tecnología de empaque avanzada del "chip de costura", y los dos están estrechamente relacionados.
Si se dice que la memoria de HBM todavía se puede comparar con tres empresas, entonces el paquete avanzado utilizado en el "chip de costura" parece ser el único que puede fabricar TSMC.
CoWoS es el punto de partida del negocio de embalaje avanzado de TSMC y Nvidia es la primera empresa de chips en adoptar esta tecnología.
CoWoS es una combinación de CoW y oS: CoW significa Chip on Wafer, que se refiere al proceso de ensamblar chips desnudos en una oblea, y oS significa on Substrate, que significa el proceso de empaquetamiento sobre un sustrato.
El embalaje tradicional generalmente solo tiene el enlace OS. Una vez que la fundición completa la fabricación de la oblea, se entrega a una fábrica de embalaje y pruebas de terceros para su resolución. Sin embargo, el enlace CoW agregado por el embalaje avanzado no se puede resolver mediante el embalaje y las pruebas. fábrica.
Tomando como ejemplo un chip H100 completo, se distribuyen varias pilas HBM alrededor del troquel H100, que se unen mediante tecnología CoW. Pero no sólo empalme, sino comunicación entre el dado y la pila al mismo tiempo.
CoW de TSMC se diferencia de otros envases avanzados en que coloca el troquel y la pila en un intercalador de silicio (esencialmente una oblea) e interconecta canales en el intercalador para realizar la comunicación entre el troquel y la pila.
Al igual que el EMIB de Intel, la diferencia es que está interconectado a través de un puente de silicio. Sin embargo, el ancho de banda es mucho menor que el del intercalador de silicio. Teniendo en cuenta que el ancho de banda está estrechamente relacionado con la velocidad de transmisión de datos, CoWoS se ha convertido en la única opción para H100.
Esta es otra parte que está estancada en la capacidad de producción de H100.
Aunque el efecto de CoWoS es contra el cielo, el altísimo precio de 4.000-6.000 dólares por pieza todavía detiene a muchas personas, incluida Apple, que es extremadamente rica. Por tanto, la capacidad de producción preparada de TSMC es bastante limitada.
Sin embargo, la ola de IA estalló repentinamente y el equilibrio entre oferta y demanda se rompió instantáneamente.
Ya en junio, hubo rumores de que la demanda de CoWoS de Nvidia este año había alcanzado las 45.000 obleas, mientras que la estimación de TSMC a principios de año era de 30.000 obleas.Junto con las necesidades de otros clientes, la brecha de capacidad de producción superó el 20%.
Para compensar la brecha, la batalla de TSMC no es pequeña.
En junio, TSMC inauguró oficialmente la sexta fábrica de pruebas y embalaje avanzado en Nanke. La sala limpia por sí sola es más grande que el resto de las fábricas de pruebas y embalaje juntas. También prometió aumentar la capacidad de producción de CoWoS trimestre a trimestre. Por esta razón, parte del sistema operativo se subcontrata a un tercero Fábrica de embalaje y pruebas.
Pero así como no es fácil para HBM ampliar la producción, a TSMC le llevará tiempo hacerlo. Actualmente, el plazo de entrega de algunos equipos y componentes de embalaje oscila entre 3 y 6 meses y aún se desconoce cuánta nueva capacidad de producción se podrá abrir antes de fin de año.
##Plan B que no existe
Ante la escasez estructural de H100, Nvidia no se queda sin Plan B.
En la conferencia telefónica posterior a la publicación del informe financiero, Nvidia reveló que la capacidad de producción de CoWoS ya ha sido certificada por otros proveedores. Aunque no dije quién es, considerando el umbral técnico del paquete avanzado, además de TSMC, solo el EMIB congénitamente deficiente de Intel y el I-Cube de Samsung, que se ha estado desarrollando durante mucho tiempo y ha estado esperando clientes, pueden apenas combatimos el fuego.
Sin embargo, reemplazar la tecnología central es como cambiar de general antes de la batalla. Como AMD MI300 está a punto de ser producido y enviado en masa, la competencia por los chips de IA es feroz. Me temo que a Huang Renxun también le preocupa si podrá integrar con la tecnología de Intel y Samsung.
Más ansiosos que Huang Renxun pueden estar los proveedores de servicios en la nube y las nuevas empresas de inteligencia artificial que no pueden comprar H100. Después de todo, los jugadores no pueden conseguir la tarjeta gráfica, es decir, el número de fotogramas del juego es 20 fotogramas menos; las grandes empresas no pueden conseguir la H100 y pueden perder miles de millones en ingresos y decenas de miles de millones en valoración.
Hay tres tipos principales de empresas que necesitan H100: proveedores de servicios en la nube como Microsoft y Amazon; empresas de nueva creación como Anthropic y OpenAI; y grandes empresas de tecnología como Tesla. GPU cluster para capacitación.
Esto no incluye empresas financieras como Citadel ni empresas chinas que no pueden comprar la versión especial del H800.
Según el cálculo de GPU Utils [7] Según una estimación conservadora, el actual déficit de suministro de H100 alcanzó los 430.000.
Aunque existen alternativas teóricas al H100, ninguna de ellas es viable en situaciones prácticas.
Por ejemplo, el producto predecesor del H100, el A100, cuesta sólo aproximadamente 1/3 del precio del H100. Pero el problema es que el rendimiento del H100 es mucho mayor que el del A100, lo que resulta en una mayor potencia informática por costo unitario del H100 que del A100. Teniendo en cuenta que las empresas de tecnología empiezan a comprar cientos o miles de copias, comprar el A100 es aún peor.
AMD es otra alternativa, y el rendimiento sobre el papel no se queda atrás del H100. Sin embargo, debido a las barreras del ecosistema CUDA de Nvidia, es probable que el uso de la GPU de AMD alargue el ciclo de desarrollo, y es probable que los competidores que usan H100 abran una brecha consigo mismos debido a esta diferencia horaria, e incluso inviertan cientos de Millones de dólares sin retorno.
Por varias razones, un chip con un costo total de material de 3.000 dólares estadounidenses, Nvidia agregó directamente un artículo minorista y todos se apresuraron a comprarlo. Esto puede ser algo que el propio Huang Renxun no esperaba.
Antes de que mejore la capacidad de producción de HBM y CoWoS, puede que solo haya una forma de comprar H100:
Espere a que las nuevas empresas que compraron un montón de H100 cierren alardeando y recaudando dinero, y luego tome sus GPU de segunda mano.
Referencias
[1] Restricciones de capacidad de IA: cadena de suministro de CoWoS y HBM, semianálisis
[2] La fábrica original está ampliando activamente su producción y se estima que la tasa de crecimiento anual del suministro de brocas de HBM será del 105% en 2024, TrendForce
[3] ¿Qué cambios traerá la tecnología de HBM al centro de datos? Industria de semiconductores vertical y horizontal.
[4] Empaquetado avanzado, parte II: Revisión de opciones/uso para Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla y Nvidia, semianálisis
[5] El cofundador de OpenAI y científico a tiempo parcial, Andrej Karpathy, tuiteó
[6] Taiwan Semiconductor: significativamente infravalorado como proveedor de chips y paquetes para Nvidia, SeekingAlpha
[7] GPU Nvidia H100: oferta y demanda, utilidades de GPU
Editor: Li Motian
Diseño visual: Shurui
Editor responsable: Li Motian