La feuille de route de NVIDIA sur 25 ans a explosé ! Le vieux Huang Hao a parié sur B100 pour battre AMD, et l’arme secrète X100 a été exposée

Source originale : Shin Ji Yuan

Source de l’image : Généré par Unbounded AI

L’hégémonie matérielle de l’IA de NVIDIA dure depuis trop longtemps !

Maintenant, les grandes entreprises technologiques attendent de renverser leur suprématie.

Bien sûr, Nvidia ne restera pas immobile.

Récemment, les médias étrangers SemiAnalysis ont révélé une feuille de route matérielle pour NVIDIA dans les prochaines années, y compris les GPU très attendus H200, B100 et « X100 ».

Avec cela, il y a quelques informations concrètes, y compris le plan de technologie de processus de NVIDIA, la vitesse / capacité HBM3E, PCIe 6.0, PCIe 7.0, NVLink, 1.6T 224G SerDes plan.

Si ces plans fonctionnent comme espéré, Nvidia continuera à écraser avec succès ses adversaires.

Bien sûr, la position de suprématie n’est pas si bonne - MI300 d’AMD, MI400, Trainium 2 d’Amazon, Athena de Microsoft, Gaudi 3 d’Intel, ne rendra pas Nvidia meilleur.

Préparez-vous, l’attaque à haute énergie à venir!

NVIDIA, plus que simplement vouloir être un hégémon matériel

Google a déjà commencé à mettre en place sa propre infrastructure d’IA, et les TPUv5 et TPUv5e qu’ils ont construits peuvent être utilisés à la fois pour la formation interne et l’inférence, ainsi que pour des clients externes tels que Apple, Anthropic, CharacterAI et MidJourney.

Google n’est pas la seule menace de Nvidia.

Du côté logiciel, PyTorch 2.0 de Meta et Triton d’OpenAI sont également en plein essor, ce qui le rend compatible avec d’autres fournisseurs de matériel.

Aujourd’hui, le fossé logiciel demeure, mais loin d’être aussi grand qu’il l’était autrefois.

Sur la pile logicielle, les GPU d’AMD, Gaudi d’Intel, MTIA de Meta et Athena de Microsoft ont tous atteint un certain degré de développement.

Bien que NVIDIA conserve toujours sa position de leader dans le matériel, l’écart se comblera de plus en plus vite.

La NVIDIA H100 ne dominera pas longtemps.

Dans les mois à venir, le MI300 d’AMD et le Gaudi 3 d’Intel lanceront des produits matériels techniquement supérieurs au H100.

En plus des adversaires difficiles tels que Google, AMD et Intel, certaines entreprises ont également mis beaucoup de pression sur NVIDIA.

Bien que ces entreprises soient temporairement à la traîne dans la conception matérielle, elles peuvent obtenir des subventions des géants derrière elles - le monde souffre de NVIDIA depuis longtemps, et ces entreprises espèrent briser l’énorme monopole de NVIDIA sur HBM.

Les prochains Trainium2 et Inferentia3 d’Amazon, et Athena de Microsoft, sont des investissements qui sont en place depuis des années.

Les concurrents sont menaçants, et Nvidia ne restera certainement pas immobile.

Selon les médias étrangers SemiAnalysis, quel que soit le style de gestion ou la prise de décision en matière d’itinéraire, NVIDIA est « l’une des entreprises les plus douteuses du secteur ».

Et Huang Jenxun incarne l’esprit d’Andy Grove.

Le succès conduit à la complaisance. La complaisance mène à l’échec. Seule la paranoïa survit.

Afin de s’assurer la première position, NVIDIA est ambitieux et adopte une stratégie aventureuse à plusieurs volets.

Ils ne dédaignent plus de concurrencer Intel et AMD sur le marché traditionnel, mais veulent devenir des géants de la technologie tels que Google, Microsoft, Amazon, Meta et Apple.

Le DGX Cloud, les logiciels et la stratégie d’acquisition de NVIDIA pour les domaines non semi-conducteurs sont tous de grandes pièces d’échecs derrière elle.

**Les derniers détails de la feuille de route ont été exposés! **

Des détails importants de la dernière feuille de route de NVIDIA ont été exposés.

Les détails incluent le réseau, la mémoire, l’emballage et les nœuds de processus, divers GPU, la sélection SerDes, PCIe 6.0, l’optique co-packagée et les commutateurs optiques.

De toute évidence, sous la pression concurrentielle de Google, Amazon, Microsoft, AMD et Intel, NVIDIA a accéléré le développement de B100 et X100 du jour au lendemain.

B100 : le délai de mise sur le marché avant tout

Selon des sources internes, le B100 de NVIDIA sera produit en série au troisième trimestre de 2024 et certains échantillons préliminaires seront expédiés au deuxième trimestre de 2024.

En termes de performances et de TCO, qu’il s’agisse du Trainium 2 d’Amazon, du TPUv5 de Google, du MI300X d’AMD, du Gaudi 3 d’Intel ou d’Athena de Microsoft, il est faible par rapport à lui.

Même en tenant compte des subventions des partenaires de conception, AMD ou TSMC, ils ne peuvent pas toutes les battre.

Afin de mettre le B100 sur le marché le plus rapidement possible, NVIDIA a fait beaucoup de compromis.

Par exemple, NVIDIA voulait régler la consommation d’énergie à un niveau supérieur (1000W), mais à la fin, ils ont choisi de continuer à utiliser les 700W du H100.

De cette façon, le B100 peut continuer à utiliser la technologie refroidie par air lors de son lancement.

En outre, au début de la série B100, NVIDIA insistera également sur l’utilisation de PCIe 5.0.

La combinaison de 5.0 et 700W signifie qu’il peut être branché directement sur les serveurs H100 HGX existants, ce qui améliore considérablement la capacité de la chaîne d’approvisionnement et permet d’obtenir la production et l’expédition plus tôt.

Une partie de la raison de la décision de s’en tenir à 5.0 est que AMD et Intel sont encore loin derrière dans l’intégration PCIe 6.0. Et même l’équipe interne de Nvidia n’est pas prête à utiliser les processeurs PCIe 6.0.

De plus, ils utiliseront des liens plus rapides de style C2C.

À l’avenir, le ConnectX-8 sera équipé d’un commutateur PCIe 6.0 intégré, mais personne n’est encore prêt.

Broadcom et AsteraLabs n’auront pas leurs retimers PCIe6.0 prêts pour la production avant la fin de l’année, et compte tenu de la taille de ces substrats, seuls plus de retimers seront nécessaires.

Cela signifie également que le B100 original sera limité à 3.2T, et la vitesse lors de l’utilisation de ConnectX-7 ne sera que de 400G, au lieu de 800G par GPU revendiqué par NVIDIA sur le PPT.

Si vous gardez l’air frais et que la puissance, le PCIe et les vitesses du réseau sont constants, il est facile à fabriquer et à déployer.

Plus tard, NVIDIA lancera une version B100 de 1 000 W + nécessitant un refroidissement par eau.

Cette version du B100 fournira une connexion réseau 800G complète par GPU via ConnectX-8.

Pour Ethernet/InfiniBand, ces SerDes sont toujours 8x100G.

Alors que la vitesse du réseau par GPU a doublé, la cardinalité a été réduite de moitié car ils doivent toujours passer par le même commutateur 51.2T. Le commutateur 102.4T ne sera plus utilisé dans la génération B100.

Fait intéressant, il a été rapporté que le composant NVLink sur le B100 utilisera 224G SerDes, et si NVIDIA peut vraiment le faire, c’est sans aucun doute une énorme amélioration.

La plupart des gens de l’industrie conviennent que 224G n’est pas fiable et peu susceptible de se produire en 2024, à l’exception des gens de Nvidia.

Vous savez, que ce soit Google, Meta ou Amazon, leur objectif de production de masse d’accélérateur d’IA 224G est fixé pour 2026/2027.

Si NVIDIA y parvient en 2024/2025, elle battra sûrement ses adversaires au sol.

Il est rapporté que B100 est toujours le N4P de TSMC, pas une technologie basée sur le processus 3nm.

De toute évidence, pour une taille de puce aussi grande, le processus 3nm de TSMC n’est pas encore mature.

Sur la base de la taille du substrat révélée par le fournisseur de substrats NVIDIA Ibiden, NVIDIA semble être passé à une conception composée de 2 MCM monolithiques à grande puce contenant 8 ou 12 piles HBM.

Les puces SambaNova et Intel de l’année prochaine utilisent toutes deux des conceptions macro similaires.

La raison pour laquelle NVIDIA n’utilise pas la technologie de liaison hybride comme AMD est qu’ils ont besoin d’une production de masse, et le coût est une grande préoccupation pour eux.

Selon SemiAnalysis, la capacité de mémoire de ces deux puces B100 sera similaire ou supérieure à celle du MI300X d’AMD, atteignant une pile de 24 Go.

La version refroidie par air du B100 peut atteindre des vitesses allant jusqu’à 6,4 Gbps, tandis que la version refroidie par liquide peut atteindre jusqu’à 9,2 Gbps.

En outre, NVIDIA a également montré les GB200 et B40 dans la feuille de route.

Les GB200 et GX200 utilisent G, ce qui est évidemment un espace réservé car NVIDIA introduira un nouveau processeur basé sur l’architecture Arm. Je n’utiliserai pas Grace longtemps.

Le B40 est susceptible d’être la moitié de la taille du B100, avec seulement une puce N4P monolithique et HBM avec jusqu’à 4 ou 6 couches. Contrairement au L40S, cela a du sens pour l’inférence sur les petits modèles.

"X100 »: Coup critique

La chose la plus frappante à propos de la feuille de route exposée est le calendrier « X100 » de NVIDIA.

Fait intéressant, il correspond parfaitement au calendrier actuel du MI400 d’AMD. Un an seulement après le lancement du H100, AMD a publié sa stratégie MI300X.

L’emballage d’AMD du MI300X est impressionnant, et ils y entassent plus de calcul et de mémoire, dans l’espoir de surpasser le H100 il y a un an et ainsi surpasser Nvidia en matériel pur.

Nvidia a également constaté que leur sortie biennale de nouveaux GPU donnait aux concurrents une excellente occasion de saisir le marché.

Nvidia, qui est pressé, accélère le cycle du produit à une fois par an, sans laisser aucune chance aux adversaires. Par exemple, ils prévoient de lancer le X100 en 2025, juste un an après le B100.

Bien sûr, le « X100 » n’est pas encore en production de masse (contrairement au B100), donc tout est encore en l’air.

Vous savez, dans le passé, NVIDIA n’a jamais discuté de produits après la prochaine génération de produits, et cette fois est déjà sans précédent.

De plus, le nom ne s’appelle probablement pas « X100 ».

Nvidia a longtemps été la tradition de nommer les GPU d’après d’éminentes scientifiques telles que Ada Lovelace, Grace Hopper et Elizabeth Blackwell.

Quant à « X », le seul logique est Xie Xide, qui étudie la structure des semi-conducteurs et des bandes métalliques, mais compte tenu de son identité, la probabilité devrait être faible.

Maître de la chaîne d’approvisionnement: le grand pari de Lao Huang

Depuis la création de NVIDIA, Jensen Huang a activement piloté la maîtrise de la chaîne d’approvisionnement pour soutenir des objectifs de croissance massifs.

Non seulement sont-ils prêts à accepter des commandes non annulables – jusqu’à 11,15 milliards de dollars en engagements d’achat, de capacité et d’inventaire – mais ils ont également un accord de paiement initial de 3,81 milliards de dollars.

On peut soutenir qu’aucun fournisseur ne peut l’égaler.

Et l’histoire de Nvidia a montré plus d’une fois qu’ils peuvent augmenter l’offre de manière créative lorsque l’offre est rare.

Dialogue entre Huang Jenxun et Zhang Zhongmou en 2007

Lorsque Zhang Zhongmou et moi nous sommes rencontrés en 1997, Nvidia, qui ne comptait que 100 personnes, avait réalisé 27 millions de dollars de revenus cette année-là.
Vous ne pouvez pas le croire, mais Zhang Zhongmou avait l’habitude d’appeler pour les ventes et se rendait à sa porte. Et je vais expliquer à Zhang ce que fait NVIDIA et quelle doit être la taille de nos puces, et elles deviendront plus grandes chaque année.
Plus tard, NVIDIA a fabriqué un total de 127 millions de plaquettes. Depuis lors, NVIDIA a connu une croissance de près de 100% chaque année, jusqu’à présent. C’est-à-dire qu’au cours des 10 dernières années, le taux de croissance annuel composé a atteint environ 70%.

À l’époque, Zhang ne pouvait pas croire que Nvidia avait besoin de tant de plaquettes, mais Huang a persévéré.

NVIDIA a obtenu un grand succès en expérimentant avec le côté de l’offre. Bien qu’ils déprécient des milliards de dollars d’inventaire de temps en temps, ils obtiennent toujours des gains positifs en surcommandant.

Cette fois, NVIDIA a directement saisi la majeure partie de la fourniture de composants en amont du GPU -

Ils ont passé de très grosses commandes auprès de trois fournisseurs HBM, SK Hynix, Samsung et Micron, évinçant l’offre de tout le monde sauf Broadcom et Google. Dans le même temps, elle a également acheté la majeure partie de l’approvisionnement de TSMC CoWoS, ainsi que la capacité de production d’Amkor.

En outre, NVIDIA tire parti des composants en aval requis par les cartes et serveurs HGX, tels que les retimères, les DSP, les optiques, etc.

Si le fournisseur fait la sourde oreille aux exigences de NVIDIA, il devra alors faire face au « radis and stick » de Lao Huang -

D’une part, ils recevront des commandes inimaginables de NVIDIA; D’autre part, ils peuvent être retirés de la chaîne d’approvisionnement existante par NVIDIA.

Bien entendu, NVIDIA utilise également des commandes engagées et non annulables uniquement si le fournisseur est essentiel et ne peut pas être éliminé ou un approvisionnement diversifié.

Chaque fournisseur semble se considérer comme un gagnant de l’IA, en partie parce que NVIDIA a passé un grand nombre de commandes auprès de tous ses fournisseurs, et ils pensent tous gagner la plupart des affaires. Mais en réalité, c’est juste parce que NVIDIA se développe trop vite.

Pour revenir à la dynamique du marché, alors que Nvidia vise à atteindre plus de 70 milliards de dollars de ventes de centres de données l’année prochaine, seul Google dispose d’une capacité suffisante en amont - avec plus de 1 million d’appareils. La capacité de production totale d’AMD dans le domaine de l’IA est encore très limitée, avec un maximum de seulement quelques centaines de milliers d’unités.

Stratégie d’affaires : potentiellement anticoncurrentielle

Comme nous le savons tous, NVIDIA capitalise sur l’énorme demande de GPU pour commercialiser et vendre des produits aux clients.

Il existe une mine d’informations dans la chaîne d’approvisionnement que NVIDIA fournit une allocation prioritaire à certaines entreprises en fonction d’une série de facteurs. Y compris, mais sans s’y limiter: plan d’approvisionnement diversifié, recherche et développement indépendants de plan de puce AI, achat de DGX, de cartes réseau, de commutateurs et / ou d’équipements optiques de NVIDIA, etc.

En fait, le bundling de NVIDIA est très réussi. Bien qu’il s’agisse d’un petit fournisseur d’émetteurs-récepteurs à fibre optique, leur activité a triplé en un trimestre et devrait expédier plus de 1 milliard de dollars l’année prochaine, dépassant de loin la croissance de leurs propres activités de GPU ou de puces réseau.

On peut dire que ces stratégies sont assez complètes.

Par exemple, la seule façon d’implémenter un réseau 3.2T et un RDMA/RoCE fiable sur les systèmes NVIDIA est d’utiliser les cartes réseau de NVIDIA. Bien sûr, d’une part, c’est aussi parce que les produits d’Intel, AMD et Broadcom sont vraiment peu compétitifs - toujours bloqués au niveau de 200G.

Grâce à la gestion de la chaîne d’approvisionnement, NVIDIA a également promu le cycle de livraison des cartes réseau 400G InfiniBand, qui peuvent être nettement plus courtes que les cartes réseau Ethernet 400G. Les deux cartes réseau (ConnectX-7) sont en fait identiques dans la conception de la puce et de la carte.

La raison en est la configuration SKU de Nvidia, et non le goulot d’étranglement réel de la chaîne d’approvisionnement qui oblige les entreprises à acheter des commutateurs InfiniBand plus coûteux au lieu de commutateurs Ethernet standard.

Et ce n’est pas tout, il suffit de regarder à quel point la chaîne d’approvisionnement est obsédée par les GPU L40 et L40S, et vous savez que Nvidia joue à nouveau des tours à la distribution - afin de gagner plus d’allocations H100, les OEM doivent acheter plus de L40S.

C’est la même chose que le fonctionnement de NVIDIA dans l’espace PC - les fabricants d’ordinateurs portables et les partenaires AIB doivent acheter des G106 / G107 plus grands (GPU milieu / bas de gamme) pour obtenir les G102 / G104 plus rares et à marge plus élevée (GPU haut de gamme et phares).

En guise d’ajustement, les personnes de la chaîne d’approvisionnement ont également été endoctrinées avec l’affirmation que L40S est meilleur que A100 parce qu’il a des FLOPS plus élevés.

Mais en réalité, ces GPU ne sont pas adaptés à l’inférence LLM, car ils ont moins de la moitié de la bande passante mémoire de l’A100 et n’ont pas NVLink.

Cela signifie qu’il est presque impossible d’exécuter LLM sur le L40S et d’obtenir un bon TCO, sauf pour les très petits modèles. Le traitement à grande échelle entraîne également l’inutilisation du ou des jetons alloués à chaque utilisateur, ce qui rend les FLOPS théoriques inutiles dans les applications pratiques.

En outre, la plate-forme modulaire MGX de NVIDIA, tout en éliminant le travail difficile de conception de serveurs, réduit également les marges bénéficiaires OEM.

Des entreprises telles que Dell, HP et Lenovo sont clairement résistantes à MGX, mais des entreprises telles que Supermicro, Quanta, Asus, Gigabyte et d’autres se démènent pour combler le vide et commercialiser une « IA d’entreprise » à faible coût.

Et ces OEM / ODM impliqués dans le battage médiatique L40S et MGX peuvent également obtenir une meilleure allocation de produits GPU de ligne principale de NVIDIA.

Optique co-packagée

En termes de CPO, NVIDIA y attache également une grande importance.

Ils ont travaillé sur diverses solutions, y compris celles d’Ayar Labs, ainsi que celles qu’ils obtiennent eux-mêmes de Global Foundries et TSMC.

À l’heure actuelle, NVIDIA a examiné les plans CPO de plusieurs startups, mais n’a pas encore pris de décision finale.

L’analyse estime que NVIDIA est susceptible d’intégrer CPO dans le NVSwitch du « X100 ».

Parce que l’intégration directe dans le GPU lui-même peut être trop coûteuse et difficile en termes de fiabilité.

Commutateur de circuit optique

L’une des plus grandes forces de Google dans l’infrastructure d’IA est son commutateur optique.

Apparemment, Nvidia poursuit quelque chose de similaire. À l’heure actuelle, ils ont contacté plusieurs entreprises et espèrent coopérer au développement.

NVIDIA s’est rendu compte que Fat Tree avait pris fin en continuant à se développer, il avait donc besoin d’une autre topologie.

Contrairement au choix de Google de 6D Torus, Nvidia préfère adopter une structure Dragonfly.

Il est entendu que NVIDIA est encore loin de l’expédition d’OCS, mais ils espèrent se rapprocher de cet objectif en 2025, mais la probabilité ne peut être atteinte.

OCS + CPO est le Saint Graal, surtout lorsque OCS peut être implémenté sur une base par paquet, ce qui changera directement la donne.

Cependant, personne n’a encore démontré cette capacité, pas même Google.

Bien que l’OCS et le CPO de NVIDIA ne soient que deux ensembles de PPT dans le département de recherche, les analystes estiment que le CPO sera un pas de plus vers la production en 2025-2026.

Ressources:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)