Qui a mis le cou à Nvidia ?

Original : He Luheng

Source : Yuanchuan Technology Review** (ID : kechuangych)**

Après l'annonce du dernier rapport financier trimestriel de Nvidia, non seulement AMD a fait taire Intel et versé des larmes, mais les analystes qui avaient fait une construction psychologique à long terme ne s'attendaient pas à ce que la situation réelle dépasse les attentes.

Ce qui est encore plus effrayant, c'est que les revenus de Nvidia ont grimpé de 854 % sur un an, en grande partie parce que « l'entreprise ne peut vendre qu'une quantité limitée » plutôt que « vendre autant ». Derrière de nombreux petits essais sur les « startups prenant des hypothèques H100 » se cache le fait que l'offre de GPU H100 est limitée.

Si la pénurie persiste jusqu'à la fin de cette année, les performances de Nvidia pourraient être encore plus choquantes.

La pénurie de H100 n’est pas sans rappeler celle d’il y a quelques années, lorsque les GPU étaient en rupture de stock en raison de la montée en flèche des crypto-monnaies et que Nvidia était sanglantement réprimandé par les joueurs. Cependant, la pénurie de cartes graphiques à l'époque était en grande partie due au prix déraisonnable, tandis que la pénurie de H100 était due à la capacité de production limitée et qu'elles ne pouvaient pas être achetées à un prix plus élevé.

En d’autres termes, Nvidia gagnait toujours moins d’argent.

Lors de la conférence téléphonique du jour de la publication du rapport financier, « capacité » est naturellement devenu le mot le plus fréquent. À cet égard, la formulation de Nvidia est rigoureuse, et il est déterminé à ne pas transporter le pot qui ne devrait pas être transporté :

"En termes de part de marché, ce n'est pas quelque chose que nous pouvons réaliser seuls, cela doit impliquer de nombreux fournisseurs différents."

En fait, il n’existe que deux des « nombreux fournisseurs différents » que Nvidia appelle :

SK Hynix et TSMC.

HBM : Le jeu coréen

Si vous regardez uniquement le ratio de surface, une puce H100 n’appartient qu’à 50 % environ à Nvidia.

Dans la vue en coupe transversale de la puce, la puce H100 occupe la position centrale, avec trois piles HBM de chaque côté, et la surface combinée est équivalente à celle de la puce H100.

Ces six puces mémoire médiocres sont l’un des responsables de la pénurie d’approvisionnement en H100.

HBM (High Bandwidth Memory) se traduit littéralement par mémoire à large bande passante, qui occupe une partie de la mémoire du GPU.

Différent de la mémoire DDR traditionnelle, HBM empile essentiellement plusieurs mémoires DRAM verticalement, ce qui non seulement augmente la capacité de la mémoire, mais peut également bien contrôler la consommation d'énergie et la surface de la puce de la mémoire, et réduire l'espace occupé à l'intérieur du boîtier.

La « mémoire empilée » était à l'origine destinée au marché des smartphones, qui est très sensible à la surface de la puce et à la génération de chaleur, mais le problème est qu'en raison du coût de production élevé, les smartphones ont finalement choisi la voie LPDDR, plus rentable, ce qui a abouti à une technologie vide. pour la mémoire empilée. Réservé, mais impossible de trouver la scène d'atterrissage.

Jusqu'en 2015, AMD, dont les parts de marché perdaient du terrain, espérait profiter de la popularité des jeux 4K pour copier une vague de Nvidia.

Dans la série de GPU AMD Fiji lancée cette année-là, AMD a adopté la mémoire empilée développée conjointement avec SK Hynix et l'a nommée HBM (High Bandwidth Memory).

La vision d'AMD est que les jeux 4K nécessitent une plus grande efficacité de débit de données, et les avantages de la bande passante élevée de la mémoire HBM peuvent être reflétés. A cette époque, la carte graphique Radeon R9 Fury X d'AMD dépassait effectivement la nouvelle architecture Nvidia Kepler en termes de performances papier.

Mais le problème est que l'amélioration de la bande passante apportée par HBM est évidemment difficile à compenser son propre coût élevé, elle n'a donc pas été popularisée.

Jusqu'en 2016, AlphaGo a balayé le champion d'échecs Li Shishi, et l'apprentissage profond est né, ce qui a fait entrer en jeu la mémoire HBM.

Le cœur de l’apprentissage profond consiste à entraîner le modèle à l’aide de données massives, à déterminer les paramètres de la fonction et à intégrer les données réelles dans la décision visant à obtenir la solution finale.

Théoriquement parlant, plus la quantité de données est grande, plus les paramètres de fonction sont fiables, ce qui fait que la formation de l'IA a une poursuite presque pathologique du débit de données et du délai de transmission des données, ce qui est exactement le problème résolu par la mémoire HBM.

En 2017, AlphaGo a de nouveau combattu Ke Jie et la puce a été remplacée par un TPU développé par Google lui-même. En termes de conception de puce, chaque génération de TPU à partir de la deuxième génération adopte la conception de HBM. Le nouveau GPU Tesla P100 de Nvidia pour les centres de données et le deep learning est équipé de la deuxième génération de mémoire HBM (HBM2).

Comme presque toutes les puces GPU du marché du calcul haute performance sont équipées de mémoire HBM, la concurrence entre les géants du stockage autour de HBM se développe également rapidement.

À l’heure actuelle, seuls trois géants de la mémoire dans le monde sont capables de produire en masse des HBM : SK Hynix, Samsung Electronics et Micron.

SK Hynix est l'un des inventeurs du HBM et est actuellement le seul fabricant à produire en masse le HBM3E (HBM de troisième génération) ; Samsung Electronics est entré sur le marché avec le HBM2 (HBM de deuxième génération) et est le premier fournisseur de GPU de Nvidia. utilisant HBM ; Micron Le plus en retard, il n'est passé de HMC à HBM qu'en 2018, et la production en série de HBM2 a commencé à la mi-2020.

Parmi eux, SK Hynix monopolise 50 % des parts de marché du HBM, et sa fourniture exclusive de HBM3E à Nvidia a fermement bloqué l'expédition du H100 :

Les versions H100 PCIe et SXM utilisent toutes deux 5 piles HBM, la version H100S SXM peut en atteindre 6 et la version H100 NVL poussée par Nvidia en a atteint 12. Selon le démantèlement de l'institution de recherche, le coût d'une seule pile HBM de 16 Go peut atteindre 240 dollars. Ensuite, le coût de la seule puce mémoire H100 NVL s'élève à près de 3 000 dollars américains.

Le coût reste encore un petit problème. Considérant que Google TPU v5 et AMD MI300, qui concurrencent directement le H100, seront bientôt produits en série, et que ces deux derniers utiliseront également HBM3E, Chen Neng est encore plus tendu.

Face à l'augmentation de la demande, SK Hynix s'est fixé pour objectif de doubler sa capacité de production et a commencé à étendre sa ligne de production. Samsung et Micron se préparent également au HBM3E. Cependant, dans l'industrie des semi-conducteurs, l'expansion des lignes de production n’a jamais été réalisé du jour au lendemain.

Selon les prévisions optimistes d'un cycle de 9 à 12 mois, la capacité de production du HBM3E ne sera pas reconstituée avant au moins le deuxième trimestre de l'année prochaine.

De plus, même si la capacité de production de HBM est résolue, la quantité de H100 pouvant fournir dépend du visage de TSMC.

CoWoS : l'épée de TSMC

L'analyste Robert Castellano a fait un calcul il n'y a pas si longtemps : le H100 est produit selon le procédé 4N (5 nm) de TSMC, et le prix d'une tranche de 12 pouces avec le procédé 4N est de 13 400 $. En théorie, 86 puces H100 peuvent être découpées.

Si le rendement de production n'est pas pris en compte, alors pour chaque H100 produit, TSMC peut gagner 155 $ de revenus. [6] 。

Mais en fait, les revenus que chaque H100 rapporte à TSMC sont susceptibles de dépasser 1 000 $ US, car le H100 utilise la technologie d'emballage CoWoS de TSMC et les revenus générés par l'emballage s'élèvent à 723 $ US. [6] 。

Chaque H100 sortant de la chaîne de production N4/N5 de la 18e usine de TSMC sera expédié à la deuxième usine d'emballage et de test avancée de TSMC dans le même parc pour franchir l'étape la plus spéciale et la plus cruciale de la fabrication du H100 : CoWoS.

Pour comprendre l’importance du packaging CoWoS, il faut encore commencer par la conception de la puce du H100.

Dans les produits GPU grand public, les puces mémoire sont généralement regroupées autour du cœur du GPU et les signaux sont transmis via des circuits entre les cartes PCB.

Par exemple, dans l'image ci-dessous, la puce RTX4090 est également produite par Nvidia. Le cœur GPU et la mémoire GDDR sont emballés séparément et assemblés sur une carte PCB, indépendante l'une de l'autre.

Le GPU et le CPU suivent tous deux l'architecture de von Neumann, et son cœur réside dans la "séparation du stockage et du calcul" - c'est-à-dire que lorsque la puce traite des données, elle doit récupérer les données de la mémoire externe, puis les transférer vers La mémoire une fois le calcul terminé. Une fois, cela entraînera un retard dans le calcul. Dans le même temps, la « quantité » de transferts de données sera limitée en conséquence.

La relation entre GPU et mémoire peut être comparée à Pudong et Puxi à Shanghai. Le transport de matériaux (données) entre les deux endroits dépend du pont de Nanpu. La capacité de charge du pont de Nanpu détermine l'efficacité du transport de matériaux. Cette capacité de charge est la bande passante mémoire, qui détermine Cela affecte la vitesse de transmission des données et affecte indirectement la vitesse de calcul du GPU.

De 1980 à 2000, le « décalage de vitesse » entre le GPU et la mémoire a augmenté à un rythme de 50 % par an. En d'autres termes, même si les tunnels routiers de Longyao et de Shangzhong sont construits, ils ne seront pas en mesure de répondre à la croissance du transport de matériaux entre Pudong et Puxi, ce qui fait que la bande passante devient un goulot d'étranglement de plus en plus évident dans le calcul haute performance. scénarios.

L'écart entre les performances CPU/GPU et les performances mémoire se creuse

En 2015, tout en appliquant la mémoire HBM, AMD a également adopté une solution innovante pour la transmission de données : combiner Pudong et Puxi.

Pour faire simple, la carte graphique à architecture Fidji de 2015 a « cousu » la mémoire HBM et le cœur du GPU, transformant plusieurs petites puces en une seule grosse puce. De cette façon, l’efficacité du débit de données est doublée.

Cependant, comme mentionné ci-dessus, en raison de problèmes de coût et techniques, l'architecture Fidji d'AMD n'a pas permis au marché de l'acheter. Cependant, l'explosion de l'apprentissage profond et la recherche de l'efficacité du débit de données, quel que soit le coût, par la formation à l'IA ont rendu le « chip stitching » utile.

De plus, l'idée d'AMD est bonne, mais elle pose également un nouveau problème : quels que soient les avantages de HBM, il doit coopérer avec la technologie d'emballage avancée des « puces à couture », et les deux sont étroitement liés.

Si l'on dit que la mémoire HBM peut encore être comparée à celle de trois sociétés, alors l'emballage avancé utilisé dans la « puce à couture » semble être le seul qui puisse être fabriqué par TSMC.

CoWoS est le point de départ de l'activité d'emballage avancé de TSMC, et Nvidia est la première entreprise de puces à adopter cette technologie.

CoWoS est une combinaison de CoW et oS : CoW signifie Chip on Wafer, qui fait référence au processus d'assemblage de puces nues sur une plaquette, et oS signifie on Substrate, ce qui signifie le processus de conditionnement sur un substrat.

L'emballage traditionnel n'a généralement que le lien OS. Une fois que la fonderie a terminé la fabrication de la plaquette, celle-ci est remise à une usine d'emballage et de test tierce pour résolution. Cependant, le lien CoW ajouté par l'emballage avancé ne peut pas être résolu par l'emballage et les tests. usine.

En prenant comme exemple une puce H100 complète, plusieurs piles HBM sont réparties autour de la puce H100, qui sont assemblées via la technologie CoW. Mais pas seulement l'épissage, mais en même temps la communication entre la puce et la pile.

Le CoW de TSMC diffère des autres emballages avancés en ce sens qu'il place la puce et la pile sur un interposeur en silicium (essentiellement une tranche) et interconnecte les canaux de l'interposeur pour réaliser la communication entre la puce et la pile.

Semblable à l'EMIB d'Intel, la différence est qu'elle est interconnectée via un pont en silicium. Cependant, la bande passante est bien inférieure à celle de l'interposeur en silicium. Étant donné que la bande passante est étroitement liée au taux de transmission des données, CoWoS est devenu le seul choix pour le H100.

C’est une autre main bloquée dans la capacité de production de H100.

Bien que l'effet du CoWoS soit à contre-courant, le prix exorbitant de 4 000 à 6 000 dollars américains par pièce arrête encore de nombreuses personnes, y compris Apple, qui est extrêmement riche. Par conséquent, la capacité de production préparée par TSMC est assez limitée.

Cependant, la vague de l'IA a soudainement éclaté et l'équilibre entre l'offre et la demande a été instantanément rompu.

Dès juin, des rumeurs circulaient selon lesquelles la demande de Nvidia pour CoWoS cette année aurait atteint 45 000 wafers, alors que l'estimation de TSMC au début de l'année était de 30 000. Associé aux besoins d'autres clients, l'écart de capacité de production dépassait 20 %.

Afin de combler l'écart, la bataille de TSMC n'est pas petite.

En juin, TSMC a officiellement lancé la sixième usine avancée d'emballage et de test à Nanke. La salle blanche à elle seule est plus grande que le reste des usines d'emballage et d'essai réunies. Il a également promis d'augmenter la capacité de production de CoWoS trimestre par trimestre. Pour cette raison, une partie du système d'exploitation est sous-traité à un tiers.Usine de conditionnement et de tests.

Mais tout comme il n’est pas facile pour HBM d’augmenter sa production, il faudra du temps à TSMC pour augmenter sa production. À l'heure actuelle, les délais de livraison de certains équipements et composants d'emballage varient de 3 à 6 mois et on ne sait toujours pas quelle nouvelle capacité de production pourra être ouverte avant la fin de l'année.

Plan B qui n'existe pas

Face à la pénurie structurelle de H100, Nvidia n'est pas totalement dépourvu de plan B.

Lors de la conférence téléphonique qui a suivi la publication du rapport financier, Nvidia a révélé que la capacité de production de CoWoS avait déjà été certifiée par d'autres fournisseurs. Bien que je n'aie pas dit de qui il s'agit, compte tenu du seuil technique de l'emballage avancé, en plus de TSMC, seuls l'EMIB congénitalement déficient d'Intel et l'I-Cube de Samsung, qui se développe depuis longtemps et attend des clients, peuvent combattre à peine le feu.

Cependant, le remplacement de la technologie de base équivaut à changer de général avant la bataille. Alors que l'AMD MI300 est sur le point d'être produit et expédié en série, la concurrence pour les puces IA est féroce. Je crains que Huang Renxun s'inquiète également de savoir s'il peut intégrer avec la technologie d'Intel et de Samsung.

Plus anxieux que Huang Renxun, les fournisseurs de services cloud et les start-ups d'IA qui ne peuvent pas acheter de H100. Après tout, les joueurs ne peuvent pas obtenir la carte graphique, c'est-à-dire que le nombre d'images de jeu est inférieur de 20 images ; les grandes entreprises ne peuvent pas obtenir le H100 et elles risquent de perdre des milliards de revenus et des dizaines de milliards de valorisation.

Il existe trois principaux types d'entreprises qui ont besoin du H100 : les fournisseurs de services cloud tels que Microsoft et Amazon ; les start-ups telles qu'Anthropic et OpenAI ; et les grandes entreprises technologiques telles que Tesla. Cluster GPU pour la formation.

Cela n'inclut pas les sociétés financières telles que Citadel et les sociétés chinoises qui ne peuvent pas acheter la version spéciale du H800.

Selon le calcul de GPU Utils [7] , une estimation prudente, l'écart d'approvisionnement actuel de H100 a atteint 430 000.

Bien qu’il existe des alternatives théoriques au H100, aucune d’entre elles n’est réalisable dans des situations pratiques.

Par exemple, le produit prédécesseur du H100, A100, ne coûte qu'environ 1/3 du prix du H100. Mais le problème est que les performances du H100 sont bien supérieures à celles de l’A100, ce qui entraîne une puissance de calcul par unité plus élevée du H100 que de l’A100. Considérant que les entreprises technologiques commencent à acheter des centaines, voire des milliers d’exemplaires, acheter l’A100 est encore pire.

AMD est une autre alternative, et les performances sur papier ne sont pas loin derrière celles du H100. Cependant, en raison des barrières de l'écosystème CUDA de Nvidia, l'utilisation du GPU d'AMD est susceptible d'allonger le cycle de développement, et les concurrents qui utilisent le H100 sont susceptibles d'ouvrir un écart avec eux-mêmes en raison de ce décalage horaire, et même d'investir des centaines d'euros. des millions de dollars, sans retour.

Pour diverses raisons, une puce d'un coût matériel global de 3 000 dollars américains, Nvidia a directement ajouté un article de vente au détail, et tout le monde s'est précipité pour l'acheter. C'est peut-être quelque chose auquel Huang Renxun lui-même ne s'attendait pas.

Avant que la capacité de production de HBM et CoWoS ne s’améliore, il n’y aura peut-être qu’une seule façon d’acheter du H100 :

Attendez que les startups qui ont acheté un tas de H100 fassent faillite en se vantant et en collectant des fonds, puis prennent leurs GPU d'occasion.

Les références

[1] Contraintes de capacité en IA - CoWoS et HBM Supply Chain,SemiAnalysis

[2] L'usine d'origine développe activement sa production et le taux de croissance annuel de l'offre de bits HBM est estimé à 105 % en 2024, TrendForce

[3] Quels changements la technologie HBM apportera-t-elle au centre de données ? Industrie des semi-conducteurs verticale et horizontale

[4] Advanced Packaging Partie II : Examen des options/utilisation pour Intel, TSMC, Samsung, AMD, ASE, Sony, Micron, SKHynix, YMTC, Tesla et Nvidia, Semianalysis

[5] Andrej Karpathy, co-fondateur d'OpenAI et scientifique à temps partiel, a tweeté

[6] Taiwan Semiconductor : considérablement sous-évalué en tant que fournisseur de puces et de packages de Nvidia, SeekingAlpha

[7] GPU Nvidia H100 : offre et demande, utilitaires GPU

Editeur : Li Motian

Conception visuelle : Shurui

Editeur responsable : Li Motian

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)