NVIDIA تطلق TensorRT-LLM، الذي يمكنه تحسين أداء الاستدلال H100 بما يصل إلى 8 مرات

وفقًا لتقرير صادر عن IT House في 9 سبتمبر، أعلنت NVIDIA مؤخرًا عن إطلاق TensorRT-LLM، وهي مكتبة مفتوحة المصدر محسّنة للغاية يمكنها تسريع أداء الاستدلال لجميع نماذج اللغات الكبيرة على وحدات معالجة الرسومات AI مثل Hopper. تعمل NVIDIA حاليًا مع مجتمع المصادر المفتوحة لاستخدام التقنيات المتطورة مثل SmoothQuant وFlashAttention وfMHA لتنفيذ نواة الذكاء الاصطناعي لتحسين وحدة معالجة الرسومات الخاصة بها، والتي يمكنها تسريع نماذج GPT-3 (175B) وLlama Falcom (180B) وBloom.

أهم ما يميز TensorRT-LLM هو تقديم نظام جدولة يسمى In-Flight Bating، والذي يسمح للعمل بالدخول والخروج من وحدة معالجة الرسومات بشكل مستقل عن المهام الأخرى. يسمح هذا الحل لنفس وحدة معالجة الرسومات بمعالجة العديد من الاستعلامات الصغيرة ديناميكيًا عند معالجة الطلبات الكبيرة التي تتطلب حوسبة مكثفة، مما يؤدي إلى تحسين أداء معالجة وحدة معالجة الرسومات وتسريع إنتاجية H100 مرتين.

في اختبار الأداء، استخدمت NVIDIA A100 كأساس وقارنت H100 وH100 مع تمكين TensorRT-LLM. في استدلال GPT-J 6B، كان أداء الاستدلال لـ H100 أعلى بأربع مرات من أداء A100، بينما كان أداء H100 مع TensorRT - تمكين LLM كان أفضل من A100.8 مرات.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت