La naissance du GPT-5 nécessite 50 000 H100 ! La demande mondiale totale de H100 est de 430 000 et le GPU Nvidia est en pleine pénurie

2023-08-06 06:37:26

Source originale : Xinzhiyuan

Source de l'image : générée par l'IA illimitée‌

"Qui recevra combien de H100 et quand seront les sujets les plus brûlants de la Silicon Valley."

Le co-fondateur d'OpenAI et scientifique à temps partiel, Andrej Karpathy, a récemment publié un article expliquant son point de vue sur la pénurie de GPU NVIDIA.

Récemment, une image "De combien de GPU avons-nous besoin" qui a été largement diffusée dans la communauté a suscité des discussions parmi de nombreux internautes.

Selon le contenu indiqué sur la figure :

GPT-4 a probablement été formé sur environ 10 000 à 25 000 A100
Méta environ 21000 A100
Tesla environ 7000 A100
Stabilité AI environ 5000 A100
Falcon-40B entraînés sur 384 A100

– Inflection a utilisé 3500 et H100 pour former un modèle comparable à GPT-3.5

De plus, selon Musk, GPT-5 peut avoir besoin de 30 000 à 50 000 H100.

Auparavant, Morgan Stanley avait déclaré que GPT-5 utilisait 25 000 GPU et s'entraînait depuis février, mais Sam Altman a précisé plus tard que GPT-5 n'avait pas encore été formé.

Cependant, Altman a déclaré précédemment,

Nous avons une offre très limitée de GPU, moins il y a de personnes qui utilisent nos produits, mieux c'est.

Nous serions heureux si les gens utilisaient moins, car nous n'avons pas assez de GPU.

Dans cet article intitulé "GPU Nvidia H100 : offre et demande", une analyse approfondie de l'utilisation et de la demande actuelles des entreprises technologiques en matière de GPU.

L'article spécule que la capacité de cluster H100 à grande échelle des petits et grands fournisseurs de cloud est sur le point de s'épuiser, et la tendance de la demande pour H100 se poursuivra jusqu'à au moins la fin de 2024.

Alors, la demande de GPU est-elle vraiment un goulot d'étranglement ?

Exigences en GPU des grandes entreprises : environ 430 000 H100

À l'heure actuelle, l'explosion de l'IA générative ne s'est pas ralentie et a mis en avant des exigences plus élevées en matière de puissance de calcul.

Certaines startups utilisent le H100 coûteux et extrêmement performant de Nvidia pour former des modèles.

Les GPU sont plus difficiles à trouver que les médicaments à ce stade, a déclaré Musk.

Sam Altman dit qu'OpenAI est limité par le GPU, ce qui retarde leurs plans à court terme (réglage fin, capacité dédiée, fenêtres contextuelles 32k, multimodalité).

Les commentaires de Karpathy interviennent alors que les rapports annuels des grandes entreprises technologiques traitent même des problèmes liés à l'accès au GPU.

La semaine dernière, Microsoft a publié son rapport annuel et a souligné aux investisseurs que les GPU sont une "matière première clé" pour son activité cloud en pleine croissance. Si l'infrastructure requise n'est pas disponible, il peut y avoir un facteur de risque de panne du centre de données.

Cet article est prétendument écrit par l'auteur du post HK.

Il a supposé qu'OpenAI pourrait avoir besoin de 50 000 H100, tandis qu'Inflection en aurait besoin de 22 000, Meta pourrait avoir besoin de 25 000 et les grands fournisseurs de services cloud pourraient avoir besoin de 30 000 (tels qu'Azure, Google Cloud, AWS, Oracle).

Lambda et CoreWeave et d'autres clouds privés peuvent nécessiter un total de 100 000. Il a écrit qu'Anthropic, Helsing, Mistral et Character pourraient chacun avoir besoin de 10k.

Les auteurs disent que ce ne sont que des estimations et des suppositions approximatives, dont certaines comptabilisent deux fois le cloud et les clients finaux louent du matériel à partir du cloud.

Dans l'ensemble, les entreprises mondiales ont besoin d'environ 432 000 H100. Calculé à environ 35 000 $ par H100, le total des besoins en GPU coûte 15 milliards de dollars.

Cela n'inclut pas les sociétés Internet nationales qui ont besoin d'un grand nombre de H800.

Il existe également des sociétés financières bien connues, telles que Jane Street, JP Morgan, Two Sigma, etc., dont chacune se déploie, commençant par des centaines d'A/H100 et s'étendant à des milliers d'A/H100.

Tous les grands laboratoires, y compris OpenAI, Anthropic, DeepMind, Google et X.ai, forment de grands modèles de langage, et le H100 de Nvidia est irremplaçable.

Pourquoi le H100 est-il le premier choix ?

Le H100 est plus populaire que l'A100 en tant que premier choix, en partie en raison d'une latence de cache plus faible et du calcul FP8.

Parce que son efficacité est jusqu'à 3 fois, mais le coût est seulement (1,5-2 fois). Compte tenu du coût global du système, les performances du H100 sont bien supérieures.

En termes de détails techniques, par rapport à l'A100, le H100 est environ 3,5 fois plus rapide en raisonnement 16 bits et environ 2,3 fois plus rapide en entraînement 16 bits.

Vitesse A100 vs H100

Formation H100 MoE

Accélération massive du H100

La plupart des entreprises achètent le H100 et l'utilisent pour la formation et l'inférence, tandis que l'A100 est principalement destiné à l'inférence.

Mais certaines entreprises hésitent à changer en raison du coût, de la capacité, du risque d'utilisation et de configuration de nouveau matériel, et du fait que le logiciel existant est déjà optimisé pour l'A100.

Le processeur graphique n'est pas une pénurie, mais un problème de chaîne d'approvisionnement

Un dirigeant de Nvidia a déclaré que le problème n'était pas une pénurie de GPU, mais comment ces GPU arrivent sur le marché.

Nvidia produit des GPU à pleine capacité, mais l'exécutif a déclaré que la capacité de production de GPU est principalement limitée par la chaîne d'approvisionnement.

La puce elle-même peut avoir une capacité suffisante, mais une capacité insuffisante des autres composants limitera considérablement la capacité du GPU.

La production de ces composants repose sur d'autres fournisseurs à travers le monde.

Mais la demande est prévisible, alors maintenant le problème est progressivement résolu.

Capacité de production de puces GPU

Tout d'abord, Nvidia ne coopère qu'avec TSMC pour produire le H100. Tous les GPU 5 nm de Nvidia ne sont associés qu'à TSMC.

Il est possible de coopérer avec Intel et Samsung dans le futur, mais c'est impossible à court terme, ce qui limite la production de H100.

Selon le lanceur d'alerte, TSMC dispose de 4 nœuds de production pour fournir une capacité pour les puces de 5 nm : N5, N5P, N4, N5P

Le H100 n'est produit que sur le nœud 4N de N5 ou N5P, qui est un nœud amélioré de 5 nm.

Nvidia doit partager la capacité de ce nœud avec Apple, Qualcomm et AMD.

L'usine TSMC doit planifier la capacité de production de chaque client 12 mois à l'avance.

Si Nvidia et TSMC sous-estimaient la demande de H100 auparavant, la capacité de production sera désormais limitée.

Selon le dénonciateur, il faudra environ six mois pour que le H100 passe de la production à la livraison.

De plus, le dénonciateur a également cité un professionnel à la retraite de l'industrie des semi-conducteurs disant que la fab n'est pas le goulot d'étranglement de la production de TSMC, et que l'emballage CoWoS (empilage 3D) est la porte de la capacité de production de TSMC.

Capacité de mémoire H100

Quant à un autre composant important du H100, la mémoire du H100, il peut également y avoir un problème de capacité insuffisante.

HBM (High Bandwidth Memory), qui est intégré au GPU d'une manière spéciale, est un composant clé pour garantir les performances du GPU.

Le dénonciateur a cité un initié de l'industrie disant :

Le principal problème est HBM. Le fabriquer est un cauchemar. Le HBM étant difficile à produire, les approvisionnements sont très limités. La production et la conception doivent suivre son rythme.

Pour la mémoire HBM3, Nvidia utilise presque toujours les produits SK Hynix, et il peut y avoir des produits Samsung, et il ne devrait pas y avoir de produits Micron.

Nvidia veut que SK Hynix augmente sa capacité de production, et ils le font. Mais Samsung et Micron ont tous deux une capacité limitée.

De plus, de nombreux autres matériaux et procédés, y compris des éléments de terres rares, seront utilisés dans la fabrication des GPU, qui deviendront également des facteurs possibles limitant la capacité de production des GPU.

Comment la puce GPU va-t-elle se développer à l'avenir

Déclaration de Nvidia

Nvidia a seulement révélé qu'il serait en mesure de fournir plus de GPU au second semestre, mais n'a fourni aucune information quantitative.

Nous traitons l'approvisionnement pour le trimestre aujourd'hui, mais nous achetons également une quantité importante d'approvisionnement pour le second semestre de l'année. Nous pensons que l'offre du second semestre sera bien supérieure à celle du premier semestre.

– Colette Kress, directrice financière de Nvidia, lors de la conférence téléphonique sur les résultats de février-avril 2023

Et après?

Le problème de l'approvisionnement en GPU est désormais un cercle vicieux où la rareté fait que la propriété du GPU est considérée comme un fossé, ce qui entraîne la thésaurisation de plus de GPU, ce qui exacerbe la rareté.

– Un responsable d'un cloud privé divulgué

**Quand la prochaine génération de H100 apparaîtra-t-elle ? **

Selon la feuille de route précédente de Nvidia, la prochaine génération du H100 ne sera pas annoncée avant fin 2024-début 2025.

Jusque-là, le H100 sera le produit phare de Nvidia.

Cependant, Nvidia lancera une version refroidie à l'eau de 120 Go du H100 pendant cette période.

Selon des initiés de l'industrie interrogés par le lanceur d'alerte, le H100 sera épuisé d'ici la fin de 2023 ! !

Comment obtenir la puissance de calcul du H100 ?

Comme les dirigeants de Nvidia l'ont mentionné précédemment, la puissance de calcul fournie par le GPU H100 sera éventuellement intégrée dans la chaîne de l'industrie via divers fournisseurs de cloud computing, de sorte que la pénurie de H100 est causée par la génération de GPU d'une part.

Un autre aspect est de savoir comment les fournisseurs de cloud computing peuvent efficacement obtenir H100 de Nvidia, et enfin atteindre les clients qui en ont besoin en fournissant une puissance de cloud computing.

Le processus est simplement :

Le fournisseur de cloud de puissance de calcul achète des puces H100 auprès d'OEM, puis crée des services de cloud de puissance de calcul et les vend à diverses sociétés d'IA, afin que les utilisateurs finaux puissent obtenir la puissance de calcul H100.

Il existe également divers facteurs dans ce processus, qui ont causé la pénurie actuelle de puissance de calcul H100, et l'article qui a annoncé la nouvelle fournit également de nombreuses informations au sein de l'industrie pour votre référence.

**A qui puis-je acheter la carte H100 ? **

Des équipementiers tels que Dell, Lenovo, HPE, Supermicro et Quanta vendront à la fois le H100 et le HGX H100.

Les fournisseurs de cloud comme CoreWeave et Lambda achètent des GPU auprès d'OEM et les louent à des startups.

Les hyperscalers (Azure, GCP, AWS, Oracle) travailleront plus directement avec Nvidia, mais achèteront également auprès des OEM. Cela semble être similaire à la façon dont les joueurs achètent des cartes graphiques. Mais même pour acheter DGX, les utilisateurs doivent acheter via OEM et ne peuvent pas passer de commande directement auprès de Nvidia.

Délai de livraison

Le délai de livraison pour le serveur 8-GPU HGX est terrible, le délai de livraison pour le serveur 4-GPU HGX est très bien.

Mais chaque client veut un serveur 8 GPU !

La startup achète-t-elle auprès des OEM et des revendeurs ?

Si une start-up veut obtenir la puissance de calcul du H100, elle ne finit pas par acheter le H100 et le brancher sur son propre cluster GPU.

Ils louent généralement la puissance de calcul de grands clouds tels qu'Oracle, de clouds privés tels que Lambda et CoreWeave, ou de fournisseurs qui travaillent avec des OEM et des centres de données tels que FluidStack.

Si vous souhaitez construire votre propre centre de données, vous devez prendre en compte le temps de construction du centre de données, si vous disposez du personnel et de l'expérience en matière de matériel, et si les dépenses en capital peuvent être supportées.

La location et l'hébergement de serveurs sont devenus plus faciles. Si les utilisateurs veulent construire leurs propres centres de données, une ligne de fibre noire doit être posée pour se connecter à Internet - 10 000 $ par kilomètre. Une grande partie de l'infrastructure a déjà été construite et payée pendant le boom des dot-com. Il suffit de le louer, c'est pas cher.

– Responsable d'un cloud privé

La séquence allant de la location aux services cloud auto-construits est à peu près : services cloud de location à la demande (services cloud de location pure), services cloud planifiés, services cloud gérés (achat de serveurs, coopération avec des fournisseurs pour héberger et gérer des serveurs), auto-hébergement (achat par vous-même) et serveur d'hébergement)).

La plupart des start-up qui ont besoin de la puissance de calcul H100 choisiront de réserver des services cloud ou des services cloud gérés.

Comparaison entre les grandes plates-formes de cloud computing

Pour de nombreuses startups, les services cloud fournis par les grandes entreprises de cloud computing sont la source ultime de leur H100.

Le choix de la plate-forme cloud détermine également en fin de compte s'ils peuvent obtenir une puissance de calcul H100 stable.

Le point général est le suivant : Oracle n'est pas aussi fiable que les trois grands nuages. Mais Oracle fournira plus d'assistance technique.

Les principales différences entre les autres grandes entreprises de cloud computing sont :

Mise en réseau : alors que la plupart des startups à la recherche de grands clusters A100/H100 recherchent InfiniBand, AWS et Google Cloud ont été plus lents à adopter InfiniBand car ils ont leurs propres méthodes de provisionnement des services.

Disponibilité : La plupart des H100 de Microsoft Azure sont dédiés à OpenAI. Google a eu plus de mal à acquérir le H100.

Parce que Nvidia semble être enclin à fournir plus de quotas H100 pour les clouds qui n'ont pas l'intention de développer des puces d'apprentissage automatique concurrentes. (Ce ne sont que des spéculations, pas une dure vérité.)

Les trois principales sociétés de cloud, à l'exception de Microsoft, développent toutes des puces d'apprentissage automatique, et des alternatives Nvidia d'AWS et de Google sont déjà sur le marché, occupant une part de marché.

En termes de relation avec Nvidia, cela pourrait ressembler à ceci : Oracle et Azure > GCP et AWS. Mais ce n'est qu'une supposition.

Les petits fournisseurs de puissance de cloud computing seront moins chers, mais dans certains cas, certains fournisseurs de cloud computing échangeront la puissance de calcul contre des capitaux propres.

Comment Nvidia alloue H100

Nvidia fournira à chaque client un quota de H100.

Mais si Azure dit « Hé, nous voulons obtenir 10 000 H100, tous pour Inflection », vous obtenez un quota différent que si Azure dit « Hé, nous voulons obtenir 10 000 H100 pour le cloud Azure ».

Nvidia se soucie de qui est le client final, donc si Nvidia est intéressé par le client final, la plate-forme du fournisseur de cloud computing obtiendra plus de H100.

Nvidia veut comprendre autant que possible qui est le client final, et ils préfèrent les clients avec de bonnes marques ou des startups avec un pedigree solide.

Oui, cela semble être le cas. NVIDIA aime garantir l'accès au GPU aux entreprises émergentes d'IA (dont beaucoup ont des liens étroits avec elles). Voir Inflection - une société d'intelligence artificielle dans laquelle ils investissent - tester un énorme cluster H100 sur CoreWeave, dans lequel ils investissent également.

– Responsable d'un cloud privé

Conclusion

La soif actuelle de GPU est à la fois écume et battage médiatique, mais elle existe objectivement.

Il existe des entreprises comme OpenAI avec des produits comme ChatGPT qui gagnent du terrain, mais elles ne peuvent toujours pas obtenir suffisamment de GPU.

D'autres entreprises achètent et accumulent des GPU pour une utilisation future ou pour former de grands modèles de langage que le marché n'utilise peut-être même pas. Cela crée une bulle de pénuries de GPU.

Mais peu importe comment vous le regardez, Nvidia est le roi vert de la forteresse.

Les références:

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime