Le vieux Huang gagne ! La commande H100 de Nvidia est prévue depuis 24 ans, et Musk ne peut pas rester immobile

2023-08-13 01:07:59

Source originale : Qubit

Le meilleur GPU pour peaufiner les gros modèles NVIDIA H100, tous épuisés !

Même si vous le commandez maintenant, il ne sera pas disponible avant Q1 ou même Q2 en 2024.

C'est la dernière nouvelle révélée au Wall Street Journal par CoreWeave, un fournisseur de cloud étroitement lié à Nvidia.

L'offre est extrêmement tendue depuis début avril. En seulement une semaine, les délais de livraison prévus ont bondi de niveaux raisonnables jusqu'à la fin de l'année.

Amazon AWS, le plus grand fournisseur de cloud au monde, a également confirmé la nouvelle. Le PDG Adam Selipsky a récemment déclaré :

A100 et H100 sont à la pointe de la technologie... difficile à obtenir même pour AWS.

Plus tôt, Musk a également déclaré dans un talk-show : Le GPU est désormais plus difficile à obtenir que les produits d.

Si vous trouvez un "scalper" à acheter, la prime peut atteindre 25 %.

Par exemple, le prix sur Ebay est passé d'environ 36 000 USD départ usine à 45 000 USD**, et l'offre est rare.

Dans cette situation, de grandes entreprises technologiques nationales telles que Baidu, Byte, Ali et Tencent** ont également passé des commandes d'A800 et d'autres puces pour un total de 5 milliards de dollars américains** auprès de Nvidia.

Parmi eux, seulement 1 milliard de dollars américains de marchandises peuvent être livrés cette année, et les 80 % restants devront attendre jusqu'en 2024.

Alors, à qui sont vendus les GPU haut de gamme existants ? Où est bloquée cette vague de capacités de production ?

À qui vend H100, Lao Huang a le dernier mot

Depuis l'apparition de ChatGPT, Nvidia A100 et H100, qui sont bons pour former de grands modèles, sont devenus populaires.

Même H100 peut déjà être utilisé comme un atout pour les entreprises en démarrage pour trouver des fonds d'investissement pour obtenir des prêts hypothécaires.

Les sociétés d'IA représentées par OpenAI et Meta, les sociétés de cloud computing représentées par Amazon et Microsoft, les clouds privés Coreweave et Lambda, et toutes les différentes sociétés technologiques qui souhaitent affiner leurs propres grands modèles, The la demande est énorme.

** Cependant, c'est essentiellement le PDG de Nvidia, Huang Renxun, qui a le dernier mot sur la personne à qui vendre. **

Selon The Information, H100 est si rare que Nvidia** a alloué un grand nombre de nouvelles cartes à CoreWeave**, et une offre limitée** à des sociétés de cloud computing établies telles qu'Amazon et Microsoft.

(Nvidia a également investi directement dans CoreWeave.)

L'analyse externe est due au fait que ces entreprises établies développent leurs propres puces d'accélération d'IA, dans l'espoir de réduire leur dépendance à Nvidia, alors Lao Huang les aidera.

Lao Huang contrôle également tous les aspects des opérations quotidiennes de l'entreprise au sein de Nvidia, incluant même ** "l'examen de ce que les représentants commerciaux vont dire aux petits clients potentiels" **.

Environ 40 cadres de l'entreprise relèvent directement de Lao Huang**, soit plus que les subordonnés directs de Meta Xiaozha et Microsoft Xiaona réunis.

Un ancien directeur de Nvidia a révélé : "Chez Nvidia, Huang Renxun est en fait le chef de produit de chaque produit."

Il y a quelque temps, il a également été rapporté que Lao Huang avait fait une chose exagérée : Demandez à certaines petites entreprises de cloud computing de fournir leurs listes de clients, voulant savoir qui sont les utilisateurs finaux du GPU.

Selon une analyse externe, cette décision permettra à Nvidia de mieux comprendre les besoins des clients pour ses produits, et cela a également soulevé des inquiétudes quant au fait que Nvidia pourrait utiliser ces informations pour des avantages supplémentaires.

Certaines personnes pensent également qu'une autre raison est que Lao Huang veut savoir qui utilise réellement la carte et qui ne fait que thésauriser la carte et ne l'utilise pas.

Pourquoi Nvidia et Lao Huang ont-ils une si grande voix maintenant ?

La principale raison est que l'offre et la demande de GPU haut de gamme sont trop déséquilibrées : selon le calcul du site GPU Utils, l'écart H100** s'élève à 430 000**.

L'auteur Clay Pascal a estimé le nombre de H100 nécessaires aux différents acteurs de l'industrie de l'IA dans un avenir proche en se basant sur diverses informations connues et rumeurs.

Côté société IA :

OpenAI peut avoir besoin de 50 000 H100 pour former GPT-5
Meta aurait besoin de 100 000
Le plan de cluster de puissance de calcul de 22 000 cartes d'InflectionAI a été annoncé
Les grandes start-ups d'IA telles qu'Anthropic, Character.ai, MistraAI et HelsingAI en Europe nécessitent chacune de l'ordre de 10 000.

Société d'informatique en nuage :

Dans les grands clouds publics, Amazon, Microsoft, Google et Oracle sont tous calculés à 30 000, totalisant 120 000
Le cloud privé représenté par CoreWeave et Lambda a besoin d'un total de 100 000

Cela fait 432 000.

C'est sans compter certaines sociétés financières et d'autres acteurs de l'industrie tels que JP Morgan Chase et Two Sigma qui ont également commencé à déployer leurs propres clusters de puissance de calcul.

Donc la question est, avec un tel écart d'approvisionnement, ne pouvons-nous pas produire plus ?

Lao Huang y a également pensé, mais la capacité de production est bloquée.

Où est la capacité de production bloquée cette fois ?

En fait, TSMC a déjà ajusté son plan de production pour Nvidia.

Cependant, il n'a toujours pas réussi à combler une lacune aussi énorme.

Charlie Boyle, vice-président et directeur général du système DGX de Nvidia, a déclaré que cette fois, il n'est pas coincé dans la plaquette, mais que la technologie de conditionnement CoWoS de TSMC a rencontré un goulot d'étranglement dans sa capacité de production.

C'est Apple qui concurrence Nvidia pour la capacité de production de TSMC, et il obtiendra la puce A17 pour l'iPhone de prochaine génération avant la conférence de septembre.

TSMC a récemment déclaré qu'il faudrait 1,5 an pour ramener l'arriéré du processus d'emballage à la normale.

La technologie d'emballage CoWoS est la compétence d'entretien ménager de TSMC, et la raison pour laquelle TSMC peut battre Samsung pour devenir la fonderie de puces exclusive d'Apple en dépend.

Les produits emballés par cette technologie ont des performances élevées et une grande fiabilité, c'est pourquoi le H100 peut avoir une bande passante de 3 To/s (voire plus).

Le nom complet de CoWoS est Chip-on-Wafer-on-Substrate, qui est une technologie d'intégration de puce unique au niveau de la tranche.

Cette technologie permet le conditionnement de plusieurs puces sur un intercalaire en silicium de seulement 100 μm d'épaisseur**.

Selon les rapports, la zone de l'interposeur de nouvelle génération atteindra 6 fois le réticule, soit environ 5000 mm².

Jusqu'à présent, à part TSMC, aucun fabricant n'a ce niveau de capacité d'emballage.

Bien que CoWoS soit certainement puissant, ne fonctionnerait-il pas sans lui ? Est-ce que d'autres fabricants peuvent le faire ?

Sans oublier que Lao Huang a déjà déclaré que "nous n'envisagerons pas d'ajouter une deuxième fonderie H100".

En réalité, cela pourrait ne pas être possible.

Nvidia a déjà coopéré avec Samsung, mais ce dernier n'a jamais produit de produits de la série H100 pour Nvidia, ni même d'autres puces de traitement 5 nm.

Sur cette base, certaines personnes pensent que le niveau technique de Samsung pourrait ne pas être en mesure de répondre aux besoins technologiques de Nvidia en matière de GPU de pointe.

Quant à Intel... leurs produits 5 nm ne semblent pas encore sortir.

Puisqu'il n'est pas envisageable de changer le fabricant de Lao Huang, que diriez-vous que les utilisateurs passent directement à AMD ?

AMD，Oui？

Rien qu'en termes de performances, AMD rattrape en effet lentement son retard.

Le dernier MI300X d'AMD dispose de 192 Go de mémoire HBM3, d'une bande passante de 5,2 To/s et peut exécuter 80 milliards de modèles de paramètres.

Le DGX GH200 que vient de sortir Nvidia dispose d'une mémoire de 141 Go de HBM3e et d'une bande passante de 5 To/s.

Mais cela ne signifie pas qu'AMD peut immédiatement combler le poste vacant de la carte N——

Le véritable «fossé» de Nvidia réside dans la plate-forme CUDA.

###

CUDA a mis en place un écosystème de développement complet, ce qui signifie que si les utilisateurs achètent des produits AMD, le débogage prendra plus de temps.

Un dirigeant d'une société de cloud privé a déclaré que personne n'oserait risquer de dépenser 300 millions de dollars pour déployer expérimentalement 10 000 GPU AMD.

L'exécutif estime que le cycle de développement et de débogage peut prendre au moins deux mois.

Dans un contexte de remplacement rapide des produits d'IA, un écart de deux mois peut être fatal pour n'importe quel fabricant.

Cependant, Microsoft a tendu une branche d'olivier à AMD.

Auparavant, il y avait des rumeurs selon lesquelles Microsoft se préparait à développer conjointement une puce d'IA portant le nom de code "Athena" avec AMD.

Plus tôt, lors de la sortie du MI200, Microsoft a été le premier à annoncer l'achat et à le déployer sur sa plateforme cloud Azure.

Par exemple, la nouvelle infrastructure de grands modèles de MSRA, RetNet, a été formée sur 512 AMD MI200 il y a quelque temps.

Dans la situation où Nvidia occupe la quasi-totalité du marché de l'IA, quelqu'un devra peut-être prendre la tête de la charge, et l'ensemble du cluster de puissance de calcul AMD à grande échelle doit être prototypé avant que quiconque ose suivre.

Cependant, dans un court laps de temps, Nvidia H100 et A100 sont toujours les choix les plus courants.

Encore une chose

Il y a quelque temps, quand Apple a sorti la nouvelle puce M2 Ultra qui prend en charge jusqu'à 192 Go de mémoire**, de nombreux praticiens ont aimé l'utiliser pour affiner les gros modèles.

Après tout, la mémoire et la mémoire vidéo des puces de la série M d'Apple sont unifiées, ** la mémoire de 192 Go correspond à une mémoire vidéo de 192 Go **, soit 2,4 fois celle de 80 Go H100 ou 8 fois celle de 24 Go RTX4090.

Cependant, après que quelqu'un ait vraiment acheté cette machine, la vitesse réelle de test et d'entraînement ** n'est pas aussi bonne que Nvidia RTX3080TI **, le réglage fin n'est pas rentable, sans parler de l'entraînement.

Après tout, la puissance de calcul des puces de la série M n'est pas spécifiquement optimisée pour l'informatique IA, et la mémoire vidéo Everbright est inutile.

Il semble que cela dépende principalement du H100 pour affiner le grand modèle, et le H100 est quelque chose que vous ne pouvez pas demander.

Face à cette situation, il y a même une "chanson GPU"** magique qui circule sur Internet.

Très lavage de cerveau, entrez avec prudence.

, durée 04:10

Accueil de la chanson GPU

Lien de référence : [1] [2] [3] [4] [5] [6] [7] [8] [9]

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.