المصدر المفتوح والمتاح تجاريًا ، تكلفة النموذج الكبير MPT-30B 30 مليار معلمة ليست سوى جزء بسيط من GPT-3

2023-06-26 08:21:55

أصدرت شركة تطوير النماذج الكبيرة التي تعمل بالذكاء الاصطناعي MosaicML مؤخرًا نموذجًا جديدًا للغة كبيرة مفتوح المصدر متاحًا تجاريًا MPT-30B ، مع 30 مليار معلمة ، وهو أقوى بكثير من نموذج لغة الجيل السابق MPT-7B (7 مليارات معلمة) ، وأدائه هو أفضل من GPT-3.

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

بالإضافة إلى ذلك ، أصدروا نموذجين دقيقين: MPT-30B-Instruct و MPT-30B-Chat ، اللذان يعتمدان على MPT-30B وهما جيدان في تتبع التعليمات أحادية المنعطف والحوار متعدد الأدوار ، على التوالي.

ميزات طراز MPT-30B:

نافذة سياق رمزية 8K أثناء التدريب
دعم سياقات أطول عبر ALiBi
تحقيق الاستدلال الفعال + أداء التدريب من خلال FlashAttention
تتمتع سلسلة MPT-30B أيضًا بقدرات تشفير قوية نظرًا لمزيج البيانات المدربة مسبقًا.

تم تمديد النموذج إلى نافذة سياق رمز 8k على NVIDIA H100 ، مما يجعله أول LLM تم تدريبه على H100.

MPT-30B أقوى من GPT-3؟

MPT-30B هو نموذج قاعدة مفتوح المصدر مرخص تجاري من Apache 2.0 وهو أقوى من GPT-3 الأصلي وقادر على المنافسة مع نماذج أخرى مفتوحة المصدر مثل LLaMa-30B و Falcon-40B.

(أعلى) دقة إطلاق النار الصفري لـ MPT-30B مقابل GPT-3 في تسع مهام للتعلم السياقي (ICL). يتفوق MPT-30B على GPT-3 في ستة من أصل تسعة مقاييس.

قامت MosaicML بتدريب MPT-30B لمدة شهرين ، باستخدام مجموعة Nvidia's H100 GPU للتدريب.

كما هو موضح في الشكل أدناه ، بيانات التدريب لـ MPT-30B:

تم تدريب MPT-30B مسبقًا عن طريق خلط البيانات ، ويتم جمع الرموز المميزة لبيانات ما قبل التدريب 1T من 10 نصوص نصية مفتوحة المصدر مختلفة ، ويتم تقسيم النص باستخدام الرمز المميز EleutherAI GPT-NeoX-20B ، وأخذ عينات وفقًا للنسبة المذكورة أعلاه .

مقارنة بين MPT-7B و MPT-30B

تكلفة التدريب MPT-30B

قال نافين راو ، الرئيس التنفيذي والمؤسس المشارك لشركة MosaicML ، إن تكلفة تدريب MPT-30B تبلغ 700000 دولار أمريكي (حوالي 5.0244 مليون يوان) ، وهو أقل بكثير من عشرات الملايين من الدولارات المطلوبة لمنتجات مماثلة مثل GPT- 3..

كم من الوقت والمال سيستغرق تدريب نموذج MPT-30B مخصص؟ لنبدأ بالنموذج الأساسي.

يوضح الشكل أعلاه وقت وتكلفة التدريب المسبق MPT-30B من البداية باستخدام وحدات معالجة الرسومات A100 أو H100. مع البنية التحتية MosaicML ، يمكنك تدريب MPT-30B المخصص الخاص بك من البداية باستخدام توكن 1T في أسبوعين.

ماذا لو كنت لا تريد التدرب من الصفر ، ولكنك تريد فقط ضبط نموذج موجود؟

يوضح الشكل أدناه تفاصيل وقت وتكلفة ضبط MPT-30B لكل رمز مميز 1B. باستخدام بنية MosaicML الأساسية ، يمكنك ضبط نموذج MPT-30B الخاص بك بشكل كامل دون القلق بشأن قيود ذاكرة النظام ، وبضع مئات من الدولارات فقط!

قالت MosaicML أن توسيع النموذج إلى 30 مليار معلمة ليس سوى الخطوة الأولى ، وبعد ذلك سيطلقون نموذجًا أكبر وأعلى جودة على أساس خفض التكاليف.

مراجع:

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.