Hancurkan H100! Chip super NVIDIA GH200 meluncurkan MLPerf v3.1, kinerja melonjak 17%

Sumber: Xinzhiyuan

Setelah mengikuti tes pelatihan LLM pada bulan April, MLPerf kembali menerima update besar!

Baru saja, MLCommons telah merilis pembaruan untuk MLPerf v3.1 dan menambahkan dua tolok ukur baru: Uji inferensi LLM MLPerf Inference v3.1, dan uji kinerja penyimpanan MLPerf Storage v0.5.

Dan ini, ini juga merupakan debut hasil tes NVIDIA GH200!

Dibandingkan dengan satu H100 yang dipasangkan dengan CPU Intel, kombinasi Grace CPU + H100 GPU GH200 mengalami peningkatan sekitar 15% di berbagai proyek.

Debut chip super NVIDIA GH200

Tidak ada keraguan bahwa GPU Nvidia memiliki performa terbaik pada benchmark MLPerf Inference 3.1.

Diantaranya, chip super GH200 Grace Hopper yang baru dirilis juga memulai debutnya di MLPerf Inference 3.1.

Chip super Grace Hopper mengintegrasikan CPU Grace Nvidia dan GPU H100 melalui koneksi bandwidth ultra-tinggi untuk memberikan kinerja yang lebih kuat daripada satu H100 yang digabungkan dengan CPU lain.

“Grace Hopper telah menunjukkan kinerja yang sangat kuat untuk pertama kalinya, dengan peningkatan kinerja sebesar 17% dibandingkan dengan GPU H100 yang kami berikan, dan kami sudah menjadi yang terdepan dalam segala hal,” Dave Salvator, direktur kecerdasan buatan di Nvidia, mengatakan dalam sebuah pers. melepaskan.

Peningkatan kinerja yang signifikan

Secara khusus, ini mengintegrasikan GPU H100 dan CPU Grace, yang terhubung melalui NVLink-C2C 900GB/s.

CPU dan GPU masing-masing dilengkapi dengan memori LPDDR5X 480GB dan memori HBM3 96GB atau memori HBM3e 144GB, mengintegrasikan memori akses berkecepatan tinggi hingga 576GB.

Chip super NVIDIA GH200 Grace Hopper dirancang untuk beban kerja intensif komputasi dan dapat memenuhi berbagai persyaratan dan fungsi yang menuntut.

Seperti melatih dan menjalankan model Transformer besar dengan triliunan parameter, atau menjalankan sistem rekomendasi dan database vektor dengan menyematkan tabel berukuran multi-terabyte.

Chip super GH200 Grace Hopper juga berkinerja sangat baik dalam pengujian Inferensi MLPerf, melampaui hasil terbaik yang dicapai oleh satu Nvidia H100 SXM di setiap proyek.

Hasil perbandingan performa pusat data NVIDIA Grace Hopper MLPerf Inference dan DGX H100 SXM. Masing-masing nilai merupakan keunggulan performa dari GH200

Superchip GH200 Grace Hopper mengintegrasikan HBM3 96 GB dan menyediakan bandwidth memori HBM3 hingga 4 TB/dtk, dibandingkan dengan H100 SXM 80 GB dan 3,35 TB/dtk.

Kapasitas memori yang lebih besar dan peningkatan bandwidth memori memungkinkan penggunaan ukuran batch yang lebih besar untuk beban kerja pada superchip NVIDIA GH200 Grace Hopper dibandingkan dengan H100 SXM.

Misalnya, dalam skenario server, ukuran batch digandakan untuk RetinaNet dan DLRMv2, dan dalam skenario offline, ukuran batch ditingkatkan sebesar 50%.

Koneksi NVLink-C2C bandwidth tinggi pada chip super GH200 Grace Hopper antara GPU Hopper dan CPU Grace memungkinkan komunikasi cepat antara CPU dan GPU, membantu meningkatkan kinerja.

Misalnya, dalam MLPerf DLRMv2, mentransfer kumpulan tensor melalui PCIe pada H100 SXM memerlukan sekitar 22% waktu inferensi kumpulan.

Chip super GH200 Grace Hopper yang menggunakan NVLink-C2C menyelesaikan transmisi yang sama hanya dengan menggunakan 3% waktu inferensi.

Karena bandwidth memori yang lebih tinggi dan kapasitas memori yang lebih besar, chip super Grace Hopper memiliki keunggulan kinerja chip tunggal hingga 17% dibandingkan dengan GPU H100 dari MLPerf Inference v3.1.

Terdepan dalam penalaran dan pelatihan

Dalam debut MLPerfnya, GH200 Grace Hopper Superchip menunjukkan kinerja unggul di semua beban kerja dan skenario di Divisi Tertutup.

Dalam aplikasi server mainstream, GPU L4 dapat memberikan solusi komputasi hemat daya dan ringkas, dan kinerjanya juga telah meningkat secara signifikan dibandingkan dengan solusi CPU.

Salvator berkata, "Dibandingkan dengan CPU x86 terbaik dalam pengujian, kinerja L4 juga sangat kuat, meningkat 6 kali lipat."

Untuk aplikasi AI dan aplikasi robotika lainnya, modul Jetson AGX Orin dan Jetson Orin NX mencapai kinerja luar biasa.

Pengoptimalan perangkat lunak di masa depan akan membantu membuka lebih jauh potensi SoC NVIDIA Orin yang kuat dalam modul ini.

Pada jaringan AI pendeteksi target yang sangat populer saat ini - RetinaNet, kinerja produk Nvidia telah meningkat hingga 84%.

Hasil dari Divisi Terbuka NVIDIA menunjukkan potensi pengoptimalan model untuk meningkatkan kinerja inferensi secara signifikan sambil mempertahankan akurasi yang sangat tinggi.

Tolok Ukur MLPerf 3.1 Baru

Tentu saja, ini bukan upaya pertama MLCommons dalam melakukan tolok ukur kinerja model bahasa besar.

Pada awal bulan Juni tahun ini, MLPerf v3.0 menambahkan tes benchmark pelatihan LLM untuk pertama kalinya. Namun, tugas pelatihan dan inferensi LLM sangat berbeda.

Beban kerja inferensi memiliki kebutuhan komputasi yang tinggi dan beragam, sehingga mengharuskan platform memproses berbagai jenis prediksi data dengan cepat dan melakukan inferensi pada berbagai model AI.

Bagi perusahaan yang ingin menerapkan sistem AI, diperlukan cara untuk menilai kinerja infrastruktur secara objektif di berbagai beban kerja, lingkungan, dan skenario penerapan.

Jadi pembandingan penting untuk pelatihan dan inferensi.

MLPerf Inference v3.1 menyertakan dua pembaruan penting untuk lebih mencerminkan penggunaan AI saat ini:

Pertama, pengujian inferensi model bahasa besar (LLM) berdasarkan GPT-J ditambahkan. GPT-J adalah LLM parameter 6B sumber terbuka untuk ringkasan teks kumpulan data CNN/Daily Mail.

Selain GPT-J, tes DLRM kali ini juga telah diperbarui.

Untuk DLRM yang diperkenalkan di MLPerf Training v3.0, arsitektur model baru dan kumpulan data yang lebih besar diadopsi untuk lebih mencerminkan skala dan kompleksitas sistem rekomendasi.

David Kanter, pendiri dan direktur eksekutif MLCommons, mengatakan bahwa tolok ukur pelatihan berfokus pada model dasar berskala lebih besar, sedangkan tugas sebenarnya yang dilakukan oleh tolok ukur inferensi mewakili kasus penggunaan yang lebih luas yang dapat diterapkan oleh sebagian besar organisasi.

Dalam hal ini, untuk memungkinkan pengujian yang representatif terhadap berbagai platform inferensi dan kasus penggunaan, MLPerf mendefinisikan empat skenario berbeda.

Setiap tolok ukur ditentukan oleh kumpulan data dan sasaran kualitas.

Setiap tolok ukur memerlukan skenario berikut:

Dalam benchmark MLPerf v3.1, terdapat lebih dari 13.500 hasil, dengan banyak pelaku mencapai peningkatan kinerja sebesar 20% atau lebih dibandingkan benchmark 3.0.

Pengoperasi lainnya termasuk Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta Teknologi Cloud, SiMA, Supermicro, TTA dan xFusion, dll.

data rinci:

Referensi:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)