سحق H100! شريحة NVIDIA GH200 الفائقة تظهر لأول مرة MLPerf v3.1، ويقفز الأداء بنسبة 17%

المصدر: شينزيوان

بعد الانضمام إلى اختبار تدريب LLM في أبريل، تلقى MLPerf مرة أخرى تحديثًا كبيرًا!

الآن، أصدرت MLCommons تحديثًا لـ MLPerf v3.1 وأضافت معيارين جديدين: اختبار استدلال LLM MLPerf Inference v3.1، واختبار أداء التخزين MLPerf Storage v0.5.

وهذا أيضًا هو أول ظهور لنتائج اختبار NVIDIA GH200!

بالمقارنة مع H100 واحد مقترن بوحدة معالجة مركزية Intel، فإن الجمع بين وحدة المعالجة المركزية Grace CPU + H100 GPU الخاصة بـ GH200 يحقق تحسنًا بنسبة 15% تقريبًا في العديد من المشاريع.

الظهور الأول لشريحة NVIDIA GH200 الفائقة

ليس هناك شك في أن أداء وحدة معالجة الرسومات من Nvidia هو الأفضل في معيار MLPerf Inference 3.1.

من بينها، ظهرت شريحة GH200 Grace Hopper الفائقة التي تم إصدارها حديثًا لأول مرة أيضًا على MLPerf Inference 3.1.

تدمج شريحة Grace Hopper الفائقة وحدة المعالجة المركزية Grace CPU وH100 GPU من Nvidia من خلال اتصال النطاق الترددي العالي للغاية لتوفير أداء أقوى من H100 واحد مدمج مع وحدات المعالجة المركزية الأخرى.

وقال ديف سالفاتور، مدير الذكاء الاصطناعي في إنفيديا، في مؤتمر صحفي: "لقد أظهرت Grace Hopper أداءً قويًا للغاية لأول مرة، مع تحسن في الأداء بنسبة 17٪ مقارنة بتقديم H100 GPU الخاص بنا، ونحن بالفعل متقدمون في جميع المجالات". يطلق.

زيادة ملحوظة في الأداء

على وجه التحديد، فهو يدمج وحدة معالجة الرسومات H100 وGrace CPU، متصلين عبر NVLink-C2C بسرعة 900 جيجابايت/ثانية.

تم تجهيز وحدة المعالجة المركزية ووحدة معالجة الرسومات على التوالي بذاكرة LPDDR5X بسعة 480 جيجابايت وذاكرة HBM3 بسعة 96 جيجابايت أو ذاكرة HBM3e بسعة 144 جيجابايت، مع دمج ما يصل إلى 576 جيجابايت من ذاكرة الوصول عالية السرعة.

تم تصميم شريحة NVIDIA's GH200 Grace Hopper الفائقة لأحمال العمل كثيفة الحوسبة ويمكنها تلبية مجموعة متنوعة من المتطلبات والوظائف الصعبة.

مثل تدريب وتشغيل نماذج المحولات الكبيرة التي تحتوي على تريليونات من المعلمات، أو تشغيل أنظمة التوصية وقواعد بيانات المتجهات مع جداول التضمين التي يبلغ حجمها عدة تيرابايت.

كما كان أداء شريحة GH200 Grace Hopper الفائقة جيدًا جدًا في اختبار MLPerf Inference، محطمة بذلك أفضل النتائج التي حققتها شريحة Nvidia H100 SXM واحدة في كل مشروع.

نتائج مقارنة أداء مركز البيانات NVIDIA Grace Hopper MLPerf Inference وDGX H100 SXM، كل قيمة هي تقدم أداء GH200

تدمج شريحة GH200 Grace Hopper الفائقة 96 جيجابايت من HBM3 وتوفر ما يصل إلى 4 تيرابايت/ثانية من عرض النطاق الترددي لذاكرة HBM3، مقارنة بـ 80 جيجابايت و3.35 تيرابايت/ثانية من H100 SXM.

تتيح سعة الذاكرة الأكبر وعرض النطاق الترددي المتزايد للذاكرة استخدام أحجام دفعات أكبر لأحمال العمل على شريحة NVIDIA GH200 Grace Hopper الفائقة مقارنةً بـ H100 SXM.

على سبيل المثال، في سيناريو الخادم، يتم مضاعفة حجم الدُفعة لكل من RetinaNet وDLRMv2، وفي سيناريو عدم الاتصال، يتم زيادة حجم الدُفعة بنسبة 50%.

يتيح اتصال NVLink-C2C ذو النطاق الترددي العالي لشريحة GH200 Grace Hopper الفائقة بين وحدة معالجة الرسوميات Hopper ووحدة معالجة الرسومات Grace CPU الاتصال السريع بين وحدة المعالجة المركزية ووحدة معالجة الرسومات، مما يساعد على تحسين الأداء.

على سبيل المثال، في MLPerf DLRMv2، يستغرق نقل مجموعة من الموترات عبر PCIe على H100 SXM حوالي 22% من وقت استنتاج الدفعة.

أكملت شريحة GH200 Grace Hopper الفائقة التي تستخدم NVLink-C2C نفس عملية الإرسال باستخدام 3% فقط من وقت الاستدلال.

نظرًا لعرض النطاق الترددي العالي للذاكرة وسعة الذاكرة الأكبر، تتمتع شريحة Grace Hopper الفائقة بميزة أداء شريحة واحدة تصل إلى 17% مقارنةً بوحدة معالجة الرسومات H100 في MLPerf Inference v3.1.

الريادة في التفكير والتدريب

في أول ظهور لها في MLPerf، أظهرت شريحة GH200 Grace Hopper Superchip أداءً فائقًا عبر جميع أعباء العمل والسيناريوهات في القسم المغلق.

في تطبيقات الخادم السائدة، يمكن لوحدة معالجة الرسومات L4 توفير حل حوسبة مدمج ومنخفض الطاقة، كما تم تحسين أدائها بشكل ملحوظ مقارنة بحلول وحدة المعالجة المركزية.

قال سلفاتور: "بالمقارنة مع أفضل وحدة معالجة مركزية x86 في الاختبار، فإن أداء L4 قوي جدًا أيضًا، حيث تحسن بمقدار 6 مرات."

بالنسبة لتطبيقات الذكاء الاصطناعي وتطبيقات الروبوتات الأخرى، تحقق وحدات Jetson AGX Orin وJetson Orin NX أداءً متميزًا.

ستساعد تحسينات البرامج المستقبلية على إطلاق إمكانات NVIDIA Orin SoC القوية في هذه الوحدات.

على شبكة الذكاء الاصطناعي للكشف عن الأهداف المشهورة حاليًا - RetinaNet، تحسن أداء منتجات Nvidia بنسبة تصل إلى 84%.

تُظهر نتائج NVIDIA Open Division إمكانية تحسين النموذج لتحسين أداء الاستدلال بشكل كبير مع الحفاظ على دقة عالية للغاية.

معيار MLPerf 3.1 الجديد

بالطبع، هذه ليست المحاولة الأولى لـ MLCommons لقياس أداء نماذج اللغات الكبيرة.

في وقت مبكر من شهر يونيو من هذا العام، أضاف الإصدار 3.0 من MLPerf الاختبار القياسي لتدريب LLM لأول مرة. ومع ذلك، فإن مهام التدريب والاستدلال في LLM مختلفة تمامًا.

تتطلب أحمال العمل الاستدلالية متطلبات حوسبة عالية ومتنوعة، الأمر الذي يتطلب من النظام الأساسي معالجة أنواع مختلفة من تنبؤات البيانات بسرعة وإجراء الاستدلال على نماذج الذكاء الاصطناعي المختلفة.

بالنسبة للمؤسسات التي تتطلع إلى نشر أنظمة الذكاء الاصطناعي، هناك حاجة إلى طريقة لتقييم أداء البنية التحتية بشكل موضوعي عبر مجموعة متنوعة من أعباء العمل والبيئات وسيناريوهات النشر.

لذا فإن المقارنة المرجعية مهمة لكل من التدريب والاستدلال.

يتضمن الإصدار 3.1 من MLPerf Inference تحديثين مهمين ليعكس الاستخدام الفعلي للذكاء الاصطناعي اليوم بشكل أفضل:

أولاً، تمت إضافة اختبار لاستدلال نموذج اللغة الكبير (LLM) استنادًا إلى GPT-J. GPT-J عبارة عن LLM معلمة 6B مفتوحة المصدر لتلخيص النص لمجموعة بيانات CNN/Daily Mail.

بالإضافة إلى GPT-J، تم أيضًا تحديث اختبار DLRM هذه المرة.

بالنسبة إلى DLRM المقدمة في الإصدار 3.0 من تدريب MLPerf، تم اعتماد بنية نموذجية جديدة ومجموعة بيانات أكبر لتعكس بشكل أفضل حجم وتعقيد أنظمة التوصية.

قال ديفيد كانتر، المؤسس والمدير التنفيذي لشركة MLCommons، إن معيار التدريب يركز على نماذج أساسية واسعة النطاق، في حين تمثل المهام الفعلية التي يؤديها معيار الاستدلال نطاقًا أوسع من حالات الاستخدام التي يمكن لمعظم المؤسسات نشرها.

في هذا الصدد، من أجل تمكين الاختبار التمثيلي لمختلف منصات الاستدلال وحالات الاستخدام، يحدد MLPerf أربعة سيناريوهات مختلفة.

يتم تعريف كل معيار من خلال مجموعة البيانات وأهداف الجودة.

يتطلب كل معيار السيناريوهات التالية:

في معيار MLPerf v3.1، هناك أكثر من 13500 نتيجة، مع تحقيق العديد من الملتزمين تحسينات في الأداء بنسبة 20% أو أكثر مقارنة بمعيار 3.0.

ومن بين الشركات الأخرى: Asus، وAzure، وcTuning، وConnect Tech، وDell، وFujitsu، وGiga Computing، وGoogle، وH3C، وHPE، وIEI، وIntel، وIntel Habana Labs، وKrai، وLenovo، وInk Core، وNeural Magic، وNutanix، وOracle، وQualcomm، وQuanta. التكنولوجيا السحابية، SiMA، Supermicro، TTA وxFusion، إلخ.

البيانات التفصيلية:

مراجع:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت