Écrasez le H100 ! La super puce NVIDIA GH200 lance MLPerf v3.1, les performances augmentent de 17 %

Source : Xinzhiyuan

Après avoir rejoint le test de formation LLM en avril, MLPerf a de nouveau reçu une mise à jour majeure !

Tout à l'heure, MLCommons a publié une mise à jour de MLPerf v3.1 et ajouté deux nouveaux tests de référence : le test d'inférence LLM MLPerf Inference v3.1 et le test de performances de stockage MLPerf Storage v0.5.

Et ça, c'est aussi le début des résultats des tests NVIDIA GH200 !

Par rapport à un seul H100 associé à un processeur Intel, la combinaison du processeur Grace CPU + du GPU H100 du GH200 présente une amélioration d'environ 15 % dans divers projets.

Débuts de la super puce NVIDIA GH200

Il ne fait aucun doute que le GPU de Nvidia a obtenu les meilleurs résultats dans le benchmark MLPerf Inference 3.1.

Parmi eux, la nouvelle super puce GH200 Grace Hopper a également fait ses débuts sur MLPerf Inference 3.1.

La super puce Grace Hopper intègre le processeur Grace et le GPU H100 de Nvidia via une connexion à bande passante ultra-élevée pour offrir des performances supérieures à celles d'un seul H100 combiné à d'autres processeurs.

"Grace Hopper a démontré pour la première fois de très bonnes performances, avec une amélioration de 17 % par rapport à notre soumission de GPU H100, et nous sommes déjà en avance dans tous les domaines", a déclaré Dave Salvator, directeur de l'intelligence artificielle chez Nvidia, dans un communiqué de presse. libérer.

Augmentation significative des performances

Plus précisément, il intègre un GPU H100 et un CPU Grace, connectés via NVLink-C2C à 900 Go/s.

Le CPU et le GPU sont respectivement équipés de 480 Go de mémoire LPDDR5X et de 96 Go de mémoire HBM3 ou 144 Go de mémoire HBM3e, intégrant jusqu'à 576 Go de mémoire à accès haut débit.

La super puce GH200 Grace Hopper de NVIDIA est conçue pour les charges de travail gourmandes en calcul et peut répondre à une variété d'exigences et de fonctions exigeantes.

Par exemple, former et exécuter de grands modèles Transformer avec des milliards de paramètres, ou exécuter des systèmes de recommandation et des bases de données vectorielles avec des tables d'intégration de plusieurs téraoctets.

La super puce GH200 Grace Hopper a également très bien fonctionné lors du test d'inférence MLPerf, battant les meilleurs résultats obtenus par un seul Nvidia H100 SXM dans chaque projet.

Résultats comparatifs des performances du centre de données NVIDIA Grace Hopper MLPerf Inference et du DGX H100 SXM. Chaque valeur est l'avance en termes de performances du GH200.

La superpuce GH200 Grace Hopper intègre 96 Go de HBM3 et fournit jusqu'à 4 To/s de bande passante mémoire HBM3, contre 80 Go et 3,35 To/s du H100 SXM.

La plus grande capacité de mémoire et l'augmentation de la bande passante mémoire permettent d'utiliser des tailles de lots plus grandes pour les charges de travail sur la superpuce NVIDIA GH200 Grace Hopper par rapport au H100 SXM.

Par exemple, dans le scénario serveur, la taille du lot est doublée pour RetinaNet et DLRMv2, et dans le scénario hors ligne, la taille du lot est augmentée de 50 %.

La connexion NVLink-C2C à large bande passante de la super puce GH200 Grace Hopper entre le GPU Hopper et le CPU Grace permet une communication rapide entre le CPU et le GPU, contribuant ainsi à améliorer les performances.

Par exemple, dans MLPerf DLRMv2, le transfert d'un lot de tenseurs via PCIe sur le H100 SXM prend environ 22 % du temps d'inférence par lot.

La super puce GH200 Grace Hopper utilisant NVLink-C2C a effectué la même transmission en utilisant seulement 3 % du temps d'inférence.

En raison de sa bande passante mémoire plus élevée et de sa plus grande capacité de mémoire, la super puce Grace Hopper présente un avantage en termes de performances monopuce allant jusqu'à 17 % par rapport au GPU H100 de MLPerf Inference v3.1.

Leader en matière de raisonnement et de formation

Lors de ses débuts avec MLPerf, la superpuce GH200 Grace Hopper a démontré des performances supérieures dans toutes les charges de travail et scénarios de la division fermée.

Dans les applications serveur grand public, le GPU L4 peut fournir une solution informatique compacte et à faible consommation, et ses performances ont également été considérablement améliorées par rapport aux solutions CPU.

Salvator a déclaré : « Par rapport au meilleur processeur x86 du test, les performances du L4 sont également très bonnes, s'améliorant de 6 fois. »

Pour d'autres applications d'IA et de robotique, les modules Jetson AGX Orin et Jetson Orin NX atteignent des performances exceptionnelles.

Les futures optimisations logicielles permettront de libérer davantage le potentiel du puissant SoC NVIDIA Orin dans ces modules.

Sur le réseau d'IA de détection de cibles actuellement très populaire - RetinaNet, les performances des produits de Nvidia se sont améliorées jusqu'à 84 %.

Les résultats de NVIDIA Open Division démontrent le potentiel d'optimisation des modèles pour améliorer considérablement les performances d'inférence tout en conservant une précision extrêmement élevée.

Nouveau benchmark MLPerf 3.1

Bien sûr, ce n’est pas la première tentative de MLCommons d’évaluer les performances de grands modèles de langage.

Dès juin de cette année, MLPerf v3.0 a ajouté pour la première fois le test de référence de la formation LLM. Cependant, les tâches de formation et d’inférence du LLM sont très différentes.

Les charges de travail d'inférence ont des exigences informatiques élevées et sont diverses, ce qui nécessite que la plate-forme traite rapidement différents types de prédictions de données et effectue des inférences sur divers modèles d'IA.

Pour les entreprises souhaitant déployer des systèmes d’IA, il est nécessaire de trouver un moyen d’évaluer objectivement les performances de l’infrastructure sur une variété de charges de travail, d’environnements et de scénarios de déploiement.

L'analyse comparative est donc importante à la fois pour la formation et l'inférence.

MLPerf Inference v3.1 comprend deux mises à jour importantes pour mieux refléter l'utilisation réelle de l'IA aujourd'hui :

Tout d’abord, un test d’inférence de modèle de langage étendu (LLM) basé sur GPT-J est ajouté. GPT-J est un LLM de paramètres 6B open source pour le résumé textuel de l'ensemble de données CNN/Daily Mail.

En plus du GPT-J, le test DLRM a également été mis à jour cette fois.

Pour le DLRM introduit dans MLPerf Training v3.0, une nouvelle architecture de modèle et un ensemble de données plus large sont adoptés pour mieux refléter l'échelle et la complexité des systèmes de recommandation.

David Kanter, fondateur et directeur exécutif de MLCommons, a déclaré que le benchmark de formation se concentre sur des modèles de base à plus grande échelle, tandis que les tâches réelles effectuées par le benchmark d'inférence représentent un plus large éventail de cas d'utilisation que la plupart des organisations peuvent déployer.

À cet égard, afin de permettre des tests représentatifs de diverses plates-formes d'inférence et cas d'utilisation, MLPerf définit quatre scénarios différents.

Chaque benchmark est défini par un ensemble de données et des objectifs de qualité.

Chaque benchmark nécessite les scénarios suivants :

Dans le benchmark MLPerf v3.1, il y a plus de 13 500 résultats, et de nombreux committers ont obtenu des améliorations de performances de 20 % ou plus par rapport au benchmark 3.0.

Les autres contributeurs incluent Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta. Technologie Cloud, SiMA, Supermicro, TTA et xFusion, etc.

données détaillées :

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)