H100を潰せ！ NVIDIA GH200 スーパーチップが MLPerf v3.1 をデビュー、パフォーマンスが 17% 向上

2023-09-12 07:25:58

出典：新志源

4 月に LLM トレーニングテストに参加した後、MLPerf は再びメジャーアップデートを受けました。

MLCommons は、MLPerf v3.1 のアップデートをリリースし、LLM 推論テスト MLPerf Inference v3.1 とストレージパフォーマンステスト MLPerf Storage v0.5 の 2 つの新しいベンチマークを追加しました。

そしてこれは、NVIDIA GH200 のテスト結果のデビューでもあります。

Intel CPU と組み合わせた単一の H100 と比較して、GH200 の Grace CPU + H100 GPU の組み合わせでは、さまざまなプロジェクトで約 15% の改善が見られます。

NVIDIA GH200 スーパーチップデビュー

Nvidia の GPU が MLPerf Inference 3.1 ベンチマークで最高のパフォーマンスを発揮したことは疑いの余地がありません。

その中で、新しくリリースされた GH200 Grace Hopper スーパーチップも MLPerf Inference 3.1 でデビューしました。

Grace Hopper スーパーチップは、超高帯域幅接続を通じて Nvidia の Grace CPU と H100 GPU を統合し、単一の H100 を他の CPU と組み合わせた場合よりも強力なパフォーマンスを提供します。

Nvidia の人工知能担当ディレクター、Dave Salvator 氏はプレスで、「Grace Hopper は初めて非常に強力なパフォーマンスを実証し、H100 GPU の提出と比較して 17% パフォーマンスが向上しており、我々はすでに全体的に先を行っています」と述べています。リリース。

パフォーマンスの大幅な向上

具体的には、H100 GPU と Grace CPU が統合されており、900 GB/秒の NVLink-C2C 経由で接続されています。

CPUとGPUにはそれぞれ480GBのLPDDR5Xメモリと96GBのHBM3または144GBのHBM3eメモリが搭載されており、最大576GBの高速アクセスメモリが統合されています。

NVIDIA の GH200 Grace Hopper スーパーチップは、計算集約型のワークロード向けに設計されており、さまざまな厳しい要件や機能を満たすことができます。

数兆個のパラメータを使用した大規模な Transformer モデルのトレーニングと実行、または数テラバイトのサイズの埋め込みテーブルを使用したレコメンデーションシステムやベクトルデータベースの実行などです。

GH200 Grace Hopper スーパーチップは、MLPerf 推論テストでも非常に優れたパフォーマンスを示し、各プロジェクトで単一の Nvidia H100 SXM によって達成された最高の結果を破りました。

NVIDIA Grace Hopper MLPerf Inference データセンターのパフォーマンスと DGX H100 SXM の比較結果。各値は GH200 のパフォーマンスをリードしています。

GH200 Grace Hopper スーパーチップは 96 GB の HBM3 を統合し、H100 SXM の 80 GB および 3.35 TB/秒と比較して、最大 4 TB/秒の HBM3 メモリ帯域幅を提供します。

H100 SXM と比較して、NVIDIA GH200 Grace Hopper スーパーチップでは、メモリ容量とメモリ帯域幅の増加により、ワークロードに対してより大きなバッチサイズを使用できるようになります。

たとえば、サーバーシナリオでは、RetinaNet と DLRMv2 の両方のバッチサイズが 2 倍になり、オフラインシナリオではバッチサイズが 50% 増加します。

GH200 Grace Hopper スーパーチップの Hopper GPU と Grace CPU 間の高帯域幅 NVLink-C2C 接続により、CPU と GPU 間の高速通信が可能になり、パフォーマンスの向上に役立ちます。

たとえば、MLPerf DLRMv2 では、H100 SXM 上の PCIe 経由でテンソルのバッチを転送するのに、バッチ推論時間の約 22% かかります。

NVLink-C2C を使用する GH200 Grace Hopper スーパーチップは、推論時間のわずか 3% を使用して同じ送信を完了しました。

Grace Hopper スーパーチップは、より高いメモリ帯域幅とより大きなメモリ容量により、MLPerf Inference v3.1 の H100 GPU と比較して、シングルチップのパフォーマンスで最大 17% の利点があります。

推論とトレーニングを主導する

MLPerf のデビューにおいて、GH200 Grace Hopper スーパーチップは、クローズド部門のすべてのワークロードとシナリオにわたって優れたパフォーマンスを実証しました。

主流のサーバーアプリケーションでは、L4 GPU は低電力でコンパクトなコンピューティングソリューションを提供でき、そのパフォーマンスも CPU ソリューションと比較して大幅に向上しています。

Salvator氏は「テストで最高だったx86 CPUと比較すると、L4のパフォーマンスも非常に強力で、6倍向上した」と述べた。

他の AI アプリケーションやロボット工学アプリケーションでは、Jetson AGX Orin モジュールと Jetson Orin NX モジュールが優れたパフォーマンスを実現します。

将来のソフトウェアの最適化は、これらのモジュールの強力な NVIDIA Orin SoC の可能性をさらに引き出すのに役立ちます。

現在非常に人気のあるターゲット検出 AI ネットワークである RetinaNet では、Nvidia 製品のパフォーマンスが最大 84% 向上しました。

NVIDIA オープン部門の結果は、モデルの最適化により、非常に高い精度を維持しながら推論パフォーマンスを大幅に向上させる可能性を示しています。

新しい MLPerf 3.1 ベンチマーク

もちろん、MLCommons が大規模な言語モデルのパフォーマンスをベンチマークする試みはこれが初めてではありません。

今年の 6 月には、MLPerf v3.0 に初めて LLM トレーニングのベンチマークテストが追加されました。ただし、LLM のトレーニングと推論のタスクは大きく異なります。

推論ワークロードには高度なコンピューティング要件があり、多様であるため、プラットフォームはさまざまな種類のデータ予測を迅速に処理し、さまざまな AI モデルで推論を実行する必要があります。

AI システムの導入を検討している企業にとって、さまざまなワークロード、環境、導入シナリオにわたってインフラストラクチャのパフォーマンスを客観的に評価する方法が必要です。

したがって、ベンチマークはトレーニングと推論の両方にとって重要です。

MLPerf Inference v3.1 には、今日の AI の実際の使用をより適切に反映するための 2 つの重要なアップデートが含まれています。

まず、GPT-J に基づく大規模言語モデル (LLM) 推論のテストが追加されます。 GPT-J は、CNN/Daily Mail データセットのテキスト要約用のオープンソース 6B パラメーター LLM です。

今回はGPT-Jに加えてDLRMテストも更新されました。

MLPerf Training v3.0 で導入された DLRM では、推奨システムの規模と複雑さをより適切に反映するために、新しいモデルアーキテクチャと大規模なデータセットが採用されています。

MLCommons の創設者兼エグゼクティブディレクターである David Kanter 氏は、トレーニングベンチマークは大規模な基本モデルに焦点を当てているが、推論ベンチマークによって実行される実際のタスクは、ほとんどの組織が展開できる幅広いユースケースを表していると述べました。

これに関して、さまざまな推論プラットフォームとユースケースの代表的なテストを可能にするために、MLPerf は 4 つの異なるシナリオを定義しています。

各ベンチマークは、データセットと品質目標によって定義されます。

各ベンチマークには次のシナリオが必要です。

MLPerf v3.1 ベンチマークには 13,500 を超える結果があり、多くのコミッターが 3.0 ベンチマークと比較して 20% 以上のパフォーマンス向上を達成しています。

他のコミッターには、Asus、Azure、cTuning、Connect Tech、Dell、富士通、Giga Computing、Google、H3C、HPE、IEI、Intel、Intel Habana Labs、Krai、Lenovo、Ink Core、Neural Magic、Nutanix、Oracle、Qualcomm、Quanta が含まれますクラウドテクノロジー、SiMA、Supermicro、TTA、xFusionなど

詳細データ:

参考文献:

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
1/3
1Altcoin Season Coming?
39k 人気度
2Stablecoin Regulation Crackdown
21k 人気度
3Spark Program KOLs Surpass 1,000+
4k 人気度
4ETH Breaks Through $3,800
23k 人気度
5Institutions Buying Bitcoin
17k 人気度

ピン

サイトマップ