H100'ü ezin! NVIDIA GH200 süper çipi MLPerf v3.1'i piyasaya sürdü, performans %17 arttı

Kaynak: Xinzhiyuan

Nisan ayında LLM eğitim testine katıldıktan sonra MLPerf bir kez daha büyük bir güncelleme aldı!

Şu anda MLCommons, MLPerf v3.1 için bir güncelleme yayınladı ve iki yeni kıyaslama ekledi: LLM çıkarım testi MLPerf Inference v3.1 ve depolama performans testi MLPerf Storage v0.5.

Ve bu aynı zamanda NVIDIA GH200 test sonuçlarının da başlangıcıdır!

Intel CPU ile eşleştirilmiş tek bir H100 ile karşılaştırıldığında, GH200'ün Grace CPU + H100 GPU kombinasyonu çeşitli projelerde yaklaşık %15'lik bir iyileşme sağlar.

NVIDIA GH200 süper çipin çıkışı

MLPerf Inference 3.1 değerlendirmesinde Nvidia'nın GPU'sunun en iyi performansı gösterdiğine şüphe yok.

Bunlar arasında yeni piyasaya sürülen GH200 Grace Hopper süper çipi de MLPerf Inference 3.1'de ilk kez sahneye çıktı.

Grace Hopper süper çipi, Nvidia'nın Grace CPU'sunu ve H100 GPU'sunu ultra yüksek bant genişliği bağlantısıyla birleştirerek tek bir H100'ün diğer CPU'larla birleşiminden daha güçlü performans sağlar.

Nvidia'nın yapay zeka direktörü Dave Salvator bir basın toplantısında şunları söyledi: "Grace Hopper, H100 GPU sunumumuzla karşılaştırıldığında %17'lik bir performans artışıyla ilk kez çok güçlü bir performans sergiledi ve biz şimdiden öndeyiz." serbest bırakmak.

Önemli performans artışı

Spesifik olarak, 900 GB/sn NVLink-C2C aracılığıyla bağlanan bir H100 GPU ve Grace CPU'yu entegre ediyor.

CPU ve GPU sırasıyla 480 GB LPDDR5X bellek ve 96 GB HBM3 veya 144 GB HBM3e bellekle donatılmıştır ve 576 GB'a kadar yüksek hızlı erişim belleğini entegre eder.

NVIDIA'nın GH200 Grace Hopper süper çipi, yoğun bilgi işlem yükleri için tasarlanmıştır ve çeşitli zorlu gereksinimleri ve işlevleri karşılayabilir.

Trilyonlarca parametreye sahip büyük Transformer modellerinin eğitimi ve çalıştırılması veya multi terabayt boyutunda gömülü tablolarla öneri sistemleri ve vektör veritabanlarının çalıştırılması gibi.

GH200 Grace Hopper süper çipi, MLPerf Çıkarım testinde de çok iyi performans göstererek, her projede tek bir Nvidia H100 SXM tarafından elde edilen en iyi sonuçları geride bıraktı.

NVIDIA Grace Hopper MLPerf Inference veri merkezi performansı ve DGX H100 SXM'nin karşılaştırmalı sonuçları. Her değer, GH200'ün performans lideridir.

GH200 Grace Hopper süper çipi, 96 GB HBM3'ü entegre eder ve H100 SXM'nin 80 GB ve 3,35 TB/s'sine kıyasla 4 TB/s'ye kadar HBM3 bellek bant genişliği sağlar.

Daha büyük bellek kapasitesi ve artırılmış bellek bant genişliği, H100 SXM ile karşılaştırıldığında NVIDIA GH200 Grace Hopper süper çipinde iş yükleri için daha büyük parti boyutlarının kullanılmasına olanak tanır.

Örneğin, sunucu senaryosunda toplu iş boyutu hem RetinaNet hem de DLRMv2 için iki katına çıkarılır ve çevrimdışı senaryoda toplu iş boyutu %50 artırılır.

GH200 Grace Hopper süper çipinin Hopper GPU ile Grace CPU arasındaki yüksek bant genişliğine sahip NVLink-C2C bağlantısı, CPU ile GPU arasında hızlı iletişim sağlayarak performansı artırmaya yardımcı olur.

Örneğin, MLPerf DLRMv2'de, H100 SXM'de PCIe üzerinden bir tensör grubunun aktarılması, toplu çıkarım süresinin yaklaşık %22'sini alır.

NVLink-C2C kullanan GH200 Grace Hopper süper çipi, çıkarım süresinin yalnızca %3'ünü kullanarak aynı iletimi tamamladı.

Daha yüksek bellek bant genişliği ve daha büyük bellek kapasitesi nedeniyle Grace Hopper süper çipi, MLPerf Inference v3.1'in H100 GPU'suna kıyasla %17'ye varan tek çip performans avantajına sahiptir.

Akıl yürütme ve eğitimde liderlik

GH200 Grace Hopper Superchip, MLPerf'teki ilk çıkışında Kapalı Bölümdeki tüm iş yükleri ve senaryolarda üstün performans gösterdi.

Ana akım sunucu uygulamalarında L4 GPU, düşük güçlü, kompakt bir bilgi işlem çözümü sağlayabilir ve performansı da CPU çözümlerine kıyasla önemli ölçüde iyileştirilmiştir.

Salvator şunları söyledi: "Testteki en iyi x86 CPU ile karşılaştırıldığında, L4'ün performansı da çok güçlü, 6 kat arttı."

Diğer yapay zeka uygulamaları ve robotik uygulamaları için Jetson AGX Orin ve Jetson Orin NX modülleri olağanüstü performansa ulaşıyor.

Gelecekteki yazılım optimizasyonları, bu modüllerdeki güçlü NVIDIA Orin SoC'nin potansiyelini daha da ortaya çıkarmaya yardımcı olacaktır.

Şu anda çok popüler olan hedef tespit yapay zeka ağı RetinaNet'te, Nvidia ürünlerinin performansı %84'e kadar arttı.

NVIDIA Açık Bölümünden elde edilen sonuçlar, model optimizasyonunun, son derece yüksek doğruluğu korurken çıkarım performansını önemli ölçüde iyileştirme potansiyelini göstermektedir.

Yeni MLPerf 3.1 Karşılaştırması

Elbette bu, MLCommons'ın büyük dil modellerinin performansını karşılaştırmaya yönelik ilk girişimi değil.

Bu yılın Haziran ayı başlarında MLPerf v3.0, ilk kez LLM eğitiminin kıyaslama testini ekledi. Ancak LLM'nin eğitim ve çıkarım görevleri çok farklıdır.

Çıkarım iş yükleri yüksek bilgi işlem gereksinimlerine sahiptir ve çeşitlilik gösterir; bu da platformun çeşitli veri tahminlerini hızlı bir şekilde işlemesini ve çeşitli yapay zeka modelleri üzerinde çıkarım gerçekleştirmesini gerektirir.

Yapay zeka sistemlerini dağıtmak isteyen kuruluşlar için, çeşitli iş yükleri, ortamlar ve dağıtım senaryoları genelinde altyapının performansını objektif olarak değerlendirmenin bir yoluna ihtiyaç vardır.

Bu nedenle kıyaslama hem eğitim hem de çıkarım açısından önemlidir.

MLPerf Inference v3.1, yapay zekanın bugünkü gerçek kullanımını daha iyi yansıtacak iki önemli güncelleme içerir:

İlk olarak, GPT-J'ye dayalı büyük dil modeli (LLM) çıkarımına yönelik bir test eklenir. GPT-J, CNN/Daily Mail veri kümesinin metin özetlemesine yönelik açık kaynaklı bir 6B parametre LLM'sidir.

GPT-J'nin yanı sıra DLRM testi de bu kez güncellendi.

MLPerf Training v3.0'da tanıtılan DLRM için, öneri sistemlerinin ölçeğini ve karmaşıklığını daha iyi yansıtacak şekilde yeni bir model mimarisi ve daha büyük bir veri seti benimsenmiştir.

MLCommons'un kurucusu ve genel müdürü David Kanter, eğitim kıyaslamasının daha büyük ölçekli temel modellere odaklandığını, çıkarım kıyaslaması tarafından gerçekleştirilen gerçek görevlerin ise çoğu kuruluşun dağıtabileceği daha geniş bir kullanım senaryosu aralığını temsil ettiğini söyledi.

Bu bağlamda, çeşitli çıkarım platformlarının ve kullanım durumlarının temsili testini mümkün kılmak için MLPerf dört farklı senaryo tanımlar.

Her kıyaslama bir veri seti ve kalite hedefleriyle tanımlanır.

Her kıyaslama aşağıdaki senaryoları gerektirir:

MLPerf v3.1 kıyaslamasında 13.500'den fazla sonuç var ve birçok taahhütçü 3.0 kıyaslamasına göre %20 veya daha fazla performans artışı elde ediyor.

Diğer taahhütte bulunanlar arasında Asus, Azure, cTuning, Connect Tech, Dell, Fujitsu, Giga Computing, Google, H3C, HPE, IEI, Intel, Intel Habana Labs, Krai, Lenovo, Ink Core, Neural Magic, Nutanix, Oracle, Qualcomm, Quanta yer alıyor Bulut Teknolojisi, SiMA, Supermicro, TTA ve xFusion vb.

detaylı veriler:

Referanslar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)