Marché des modèles à grande échelle, pas seulement le HBM chaud

Source d'origine : industrie des semi-conducteurs verticale et horizontale

Source de l'image : générée par l'IA illimitée‌

Récemment, HBM est devenu un sujet brûlant dans l'industrie des puces. Selon TrendForce, le volume de bits de la mémoire à large bande passante (HBM) devrait atteindre 290 millions de Go en 2023, soit une augmentation d'environ 60 % d'une année sur l'autre, et devrait encore augmenter de 30 % en 2024. Le concept de mémoire HBM proposé par AMD en 2008 a été réalisé par SK Hynix grâce à la technologie TSV en 2013. 10 ans après son introduction, HBM semble bien être entré dans l'ère de la commercialisation à grande échelle.

Le décollage du concept de HBM est directement lié à la popularité de l'AIGC. Les serveurs AI ont des exigences plus élevées en matière de bande passante.Par rapport à la SDRAM DDR, HBM a une bande passante plus élevée et une consommation d'énergie plus faible. La bande passante ultra-élevée fait de HBM un composant central du GPU haute performance, et HBM est essentiellement la configuration standard des serveurs AI. À l'heure actuelle, le coût de HBM se classe au troisième rang des coûts des serveurs d'IA, représentant environ 9 %, et le prix de vente moyen d'un seul serveur peut atteindre 18 000 $ US.

Depuis l'émergence de ChatGPT l'année dernière, le marché des modèles à grande échelle a commencé à croître rapidement.Sur le marché intérieur, des géants de la technologie tels que Baidu, Ali, HKUST Xunfei, SenseTime et Huawei ont successivement annoncé qu'ils formeraient leur propre IA. modèles à grande échelle. TrendForce prévoit qu'en 2025, il y aura 5 AIGC à grande échelle équivalents à ChatGPT, 25 produits AIGC de taille moyenne de Midjourney et 80 produits AIGC à petite échelle. . Ce sont des domaines de croissance potentiels pour HBM.

Depuis le début de 2023, les commandes HBM de Samsung et SK Hynix ont augmenté rapidement, et le prix de HBM a également augmenté.Récemment, le prix de la DRAM HBM3 a été multiplié par 5. Samsung a reçu des commandes d'AMD et de Nvidia pour augmenter l'offre de HBM. SK hynix a commencé à étendre la ligne de production HBM, visant à doubler la capacité de production HBM. Les médias coréens ont rapporté que Samsung prévoyait d'investir environ 760 millions de dollars américains pour développer la production de HBM, visant à doubler la capacité de production de HBM d'ici la fin de l'année prochaine, et la société a passé d'importantes commandes d'équipement.

Avantages de HBM dans AIGC

HBM va directement augmenter la puissance de calcul des serveurs. En raison du traitement d'une grande quantité de données en peu de temps, les serveurs d'intelligence artificielle ont des exigences plus élevées en matière de bande passante. La fonction de HBM est similaire à la "station de transfert" de données, qui consiste à enregistrer les données d'image telles que chaque trame et image utilisée dans la zone de mémoire tampon de trame, et à attendre que le GPU appelle. Par rapport à la technologie de mémoire traditionnelle, HBM a une bande passante plus élevée, plus de quantité d'E/S, une consommation d'énergie plus faible et une taille plus petite, ce qui peut considérablement améliorer le volume de traitement des données et le taux de transmission des serveurs AI.

Source : Rambus

On peut voir que HBM a un avantage de niveau "roulant" en termes de bande passante. Si HBM2E fonctionne à 3,6 Gbps sur une interface large de 1024 bits, vous obtenez 3,7 To par seconde de bande passante, soit plus de 18 fois la bande passante de LPDDR5 ou DDR4.

En plus de l'avantage de la bande passante, HBM peut économiser de l'espace, qui à son tour peut accueillir plus de GPU dans le système. La mémoire HBM consiste en une pile de mémoire sur le même boîtier physique que le GPU.

Une telle architecture signifie des économies d'énergie et d'espace importantes par rapport aux conceptions de mémoire GDDR5/6 traditionnelles, ce qui permet d'installer davantage de GPU dans le système. Alors que les ensembles de données HPC, AI et d'analyse de données augmentent en taille et que les problèmes de calcul deviennent plus complexes, de plus en plus de capacité de mémoire GPU et de bande passante sont une nécessité. Le GPU H100 SXM5 fournit plus de 3 To/s de bande passante mémoire en prenant en charge 80 Go (cinq piles) de mémoire HBM3 rapide, soit deux fois la bande passante mémoire de l'A100.

Le prix a été un facteur limitant pour HBM dans le passé. Mais aujourd'hui, le marché du modèle à grande échelle est dans une période de discorde. Pour les géants qui agencent des modèles à grande échelle, le temps c'est de l'argent. Par conséquent, HBM, qui est "cher et cher", est devenu le nouveau favori des grands- des géants du modélisme. Avec l'augmentation progressive de la demande de GPU haut de gamme, HBM a commencé à devenir la configuration standard des serveurs AI.

À l'heure actuelle, les A100 et H100 de Nvidia sont chacun équipés de 80 Go de HBM2e et HBM3. Dans sa dernière puce Grace Hopper qui intègre CPU et GPU, la capacité de charge HBM d'une seule puce a augmenté de 20 %, atteignant 96 Go.

Le MI300 d'AMD est également équipé de HBM3, parmi lesquels la capacité du MI300A est la même que celle de la génération précédente de 128 Go, et le MI300X haut de gamme atteint 192 Go, soit une augmentation de 50 %.

Il est prévu que Google étende activement sa coopération avec Broadcom au cours du second semestre 2023 pour développer la puce d'accélération AISC AI. TPU devrait également être équipé de mémoire HBM pour étendre l'infrastructure AI.

Mise en page accélérée du fournisseur de stockage

Une telle "scène de l'argent" permet aux géants du stockage d'accélérer l'agencement de la mémoire HBM. À l'heure actuelle, les trois principaux fabricants mondiaux de puces mémoire transfèrent davantage de capacité de production pour produire du HBM, mais comme il faut du temps pour ajuster la capacité de production, il est difficile d'augmenter rapidement la production de HBM, et on s'attend à ce que l'offre de HBM reste serrée. dans les deux prochaines années.

Le marché de HBM est principalement contrôlé par les trois principaux géants de la DRAM. Cependant, contrairement au marché DRAM, qui est dirigé par Samsung, SK Hynix s'est mieux développé sur le marché HBM. Comme mentionné au début, SK Hynix a développé le premier produit HBM. En avril 2023, SK Hynix a annoncé le développement du premier produit DRAM HBM3 de 24 Go, qui utilise la technologie TSV pour empiler verticalement 12 puces DRAM monoproduit qui sont 40 % plus fines que les puces existantes, atteignant la même hauteur que les produits de 16 Go. Pendant ce temps, SK Hynix prévoit de préparer des échantillons de HBM3E avec des performances de transmission de données de 8 Gbps au cours du second semestre 2023 et de le mettre en production de masse en 2024.

La disposition des entreprises nationales de semi-conducteurs pour HBM tourne principalement autour du domaine de l'emballage et des interfaces.

NationalChip Technology étudie et planifie actuellement la technologie de conditionnement de puces 2.5D de la mémoire multi-HBM et promeut activement la recherche, le développement et l'application de la technologie Chiplet. Après l'achèvement de la ligne de production 2.5D/3D de Tongfu Microelectronics Co., Ltd., elle réalisera une percée nationale dans le domaine de la technologie d'emballage haute performance HBM. BIWIN a lancé des puces de mémoire et des modules de mémoire hautes performances et continuera de prêter attention à la technologie HBM. La puce PCIe 5.0/CXL 2.0 Retimer de Montage Technology a atteint la production de masse.Cette puce est une mise à niveau clé du produit PCIe 4.0 Retimer de Montage Technology, qui peut fournir à l'industrie une bande passante stable et fiable PCIe 5.0/CXL 2.0 à faible latence. solutions d'interconnexion.

Bien que HBM soit bon, il doit encore être calme.HBM est encore à un stade relativement précoce et son avenir a encore un long chemin à parcourir. Il est prévisible qu'à mesure que de plus en plus de fabricants continuent à faire des efforts dans des domaines tels que l'intelligence artificielle et l'apprentissage automatique, la complexité de la conception des produits de mémoire augmente rapidement et des exigences plus élevées sont imposées à la bande passante. de HBM.

La chaleur de HBM reflète la capacité de conduite d'AIGC. Donc, outre HBM et GPU, y a-t-il d'autres produits qui peuvent profiter de cette nouvelle tendance ?

Parlez d'autres puces enflammées

Les avantages du FPGA commencent à apparaître

Le FPGA (Field Programmable Gate Array) est un circuit intégré avec des éléments logiques programmables, de la mémoire et des ressources d'interconnexion. Contrairement à l'ASIC (Application Specific Integrated Circuit), le FPGA présente les avantages de la flexibilité, de la personnalisation, de la capacité de traitement parallèle et de la facilité de mise à niveau.

Grâce à la programmation, les utilisateurs peuvent modifier les scénarios d'application du FPGA à tout moment, et le FPGA peut simuler diverses opérations parallèles du CPU, du GPU et d'autres matériels. Par conséquent, il est également appelé "puce universelle" dans l'industrie.

Les FPGA ont du sens pour les besoins de raisonnement de l'intelligence artificielle des modèles sous-jacents qui changent fréquemment. La programmabilité du FPGA dépasse les économies typiques de l'utilisation du FPGA. Pour être clair, les FPGA ne seront pas des concurrents sérieux des systèmes d'IA à grande échelle utilisant des milliers de GPU, mais à mesure que l'IA pénètre davantage dans l'électronique, la gamme d'applications des FPGA s'élargira.

L'avantage du FPGA par rapport au GPU est une consommation d'énergie et une latence plus faibles. Le GPU ne peut pas faire bon usage de la mémoire sur puce et doit lire fréquemment la DRAM hors puce, de sorte que la consommation d'énergie est très élevée. Le FPGA peut utiliser de manière flexible le stockage sur puce, de sorte que la consommation d'énergie est bien inférieure à celle du GPU.

Le 27 juin, AMD a annoncé le lancement du système sur puce (SoC) adaptatif AMD Versal Premium VP1902, qui est un SoC adaptatif basé sur FPGA. Il s'agit d'un dispositif basé sur des puces de qualité émulation qui simplifie la vérification de conceptions de semi-conducteurs de plus en plus complexes. Il est rapporté qu'AMD VP1902 deviendra le plus grand FPGA au monde.Comparé au produit de la génération précédente (Xilinx VU19P), le nouveau VP1902 ajoute la fonction Versal et adopte une conception de petite puce, qui fait plus que doubler les performances clés du FPGA.

Dongxing Securities Research Report estime que le FPGA présente un grand avantage dans le raisonnement de l'IA en raison des avantages de délai et de consommation d'énergie apportés par son architecture. Le rapport de recherche précédent de Zheshang Securities a également souligné qu'en plus du GPU, la solution CPU + FPGA peut également répondre à l'énorme demande de puissance de calcul de l'IA.

Contrairement à HBM qui est monopolisé par des entreprises étrangères, les entreprises nationales ont déjà accumulé des puces FPGA.

L'activité principale d'Anlu Technology est la R&D, la conception et la vente de puces FPGA et de logiciels EDA spéciaux.Les produits ont été largement utilisés dans le contrôle industriel, la communication réseau, l'électronique grand public et d'autres domaines. Ziguang Tongchuang, une filiale de Ziguang Guowei, est une société professionnelle de FPGA qui conçoit et vend des puces FPGA à usage général. Ziguang Guowei a déclaré un jour lors du briefing sur les performances que la puce FPGA de la société pouvait être utilisée dans le domaine de l'IA. Dongtu Technology réalise principalement l'industrialisation des puces FPGA.L'équipe de Zhongke Yihai Micro, société actionnaire de la société, a développé de manière indépendante un logiciel EDA pour soutenir le développement d'applications de ses produits FPGA.

Nouvelle idée de substitution domestique : intégration du stockage et de l'informatique + Chiplet

Pouvons-nous utiliser nos processus et technologies actuellement disponibles pour développer des puces IA capables de rivaliser avec Nvidia en termes de performances ? Quelques "idées nouvelles" ont émergé, comme l'intégration du stockage et du calcul + Chiplet.

La séparation du stockage et du calcul conduira à des goulots d'étranglement de la puissance de calcul. Avec le développement rapide de la technologie de l'IA, la demande de puissance de calcul a explosé. Dans l'ère post-Moore, la bande passante de stockage limite la bande passante effective du système informatique, et la croissance de la puissance de calcul du système est en difficulté. Par exemple, il faut 99 jours pour former le modèle BERT à partir de zéro avec 8 blocs de 1080TI. L'architecture intégrée de calcul de stockage n'a pas le concept de stockage multiniveau profond. Tous les calculs sont mis en œuvre dans la mémoire, éliminant ainsi le mur de stockage et la surcharge supplémentaire correspondante causée par l'hétérogénéité du calcul de stockage ; l'élimination du mur de stockage peut grandement réduire le traitement des données. , améliore non seulement la vitesse de transmission et de traitement des données, mais améliore également plusieurs fois le taux d'efficacité énergétique.

D'une part, la consommation électrique nécessaire pour traiter une même puissance de calcul entre l'architecture intégrée de stockage-informatique et le processeur d'architecture traditionnelle sera réduite ; Ouvrir le mur de compilation de l'architecture traditionnelle.

Des chercheurs de l'Arizona State University ont publié un simulateur de référence d'architecture IMC basé sur Chiplet SIAM en 2021 pour évaluer le potentiel de cette nouvelle architecture dans la formation de grands modèles d'IA. SIAM intègre des modèles d'accès aux dispositifs, aux circuits, à l'architecture, au réseau sur puce (NoC), au réseau en boîtier (NoP) et à la DRAM pour permettre un système informatique hautes performances de bout en bout. SIAM est évolutif dans la prise en charge des réseaux de neurones profonds (DNN) et peut être personnalisé pour diverses structures et configurations de réseau. Son équipe de recherche démontre la flexibilité, l'évolutivité et la vitesse de simulation de SIAM en comparant différents DNN avancés à l'aide des ensembles de données CIFAR-10, CIFAR-100 et ImageNet. Il est dit que par rapport aux GPU NVIDIA V100 et T4, l'architecture chiplet + IMC obtenue via SIAM montre que l'efficacité énergétique de ResNet-50 sur l'ensemble de données ImageNet a augmenté de 130 et 72, respectivement.

Cela signifie que la puce AI intégrée de stockage-informatique devrait réaliser une intégration hétérogène à l'aide de la technologie Chiplet et de la technologie d'emballage de pile 2,5D / 3D, formant ainsi un système informatique à grande échelle. La combinaison de stockage et de calcul + Chiplet semble être un moyen réalisable de le réaliser. On dit que la technologie Yizhu explore cette voie. Sa puce commerciale de grande puissance de calcul intégrée à l'IA de stockage et de calcul de première génération peut atteindre une seule puissance de calcul de carte de plus de 500T, et la consommation d'énergie dans les 75W. Cela lancera peut-être le prélude à la deuxième courbe de croissance de la puissance de calcul de l'IA.

Conclusion

Lors de la Conférence mondiale sur l'intelligence artificielle, la PDG d'AMD, Lisa Su, a déclaré qu'il y aura un supercycle informatique à grande échelle dans les dix prochaines années.Par conséquent, c'est le bon moment pour devenir un fournisseur de technologie, et c'est également différent de certaines entreprises qui utilisera ces technologies pour développer différentes technologies. Un bon moment pour travailler avec les clients de l'application.

Personne ne veut d'une industrie avec un seul acteur dominant. Le marché des modèles à grande échelle peut-il permettre à l'industrie des puces d'avoir une nouvelle structure de marché, et de nouveaux acteurs peuvent-ils émerger ?

"Le marché des grands modèles a apporté de nouveaux modèles de marché et de nouvelles opportunités à l'industrie des puces. En favorisant le développement des puces IA, en favorisant la croissance des marchés du cloud computing et des centres de données et en déclenchant des changements dans le paysage concurrentiel, la montée en puissance des grands modèles a a apporté de nouvelles opportunités à l'industrie des puces.

Il convient de noter que l'industrie des puces est une industrie hautement compétitive et à forte intensité technologique. L'entrée dans l'industrie nécessite des ressources financières et techniques importantes pour répondre aux exigences complexes de fabrication et de R&D. Bien que le marché des modèles à grande échelle offre des opportunités aux nouveaux acteurs, ils doivent surmonter des défis techniques, financiers et marketing pour réussir dans l'industrie hautement concurrentielle des puces. "Chatgpt a répondu.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)