يمكن تشغيله على الهواتف المحمولة، مع 1 تريليون بيانات تدريب! StableLM-3B-4E1T هنا

2023-10-03 09:58:18

** المصدر: ** مجتمع AIGC المفتوح

في 2 أكتوبر بالتوقيت الشرقي، أعلنت منصة Stable.ai الشهيرة مفتوحة المصدر على موقعها الرسمي على الإنترنت عن إطلاق نموذج اللغة الكبير مفتوح المصدر StableLM-3B-4E1T. (عنوان مفتوح المصدر:

يُذكر أن Stable LM 3B هو نموذج لغة أساسي كبير الحجم مخصص بشكل أساسي للأجهزة المحمولة مثل الهواتف المحمولة وأجهزة الكمبيوتر المحمولة، وهو يقلل بشكل كبير من متطلبات موارد الحوسبة مع ضمان الأداء.

يدعم Stable LM 3B وظائف مثل إنشاء النص/الكود، وتلخيص الملخص، وضبط البيانات، والتفكير السليم، وحل المشكلات الرياضية. ويبلغ طول السياق العام 4096. (يشار إليها باسم "Stable LM 3B")

مع شعبية ChatGPT، كان هناك "طفرة تطوير كبيرة للنماذج" قوية حول العالم. ومع ذلك، تتطلب معظم النماذج قدرًا كبيرًا من موارد الحوسبة ليتم تدريبها وضبطها مسبقًا، كما أن لديها أيضًا متطلبات عالية لبيئة التشغيل لتطبيقات الذكاء الاصطناعي التوليدية المتقدمة. حتى أن شركة Qualcomm أصدرت شريحة ذكاء اصطناعي مولدة خصيصًا للأجهزة المحمولة لحل مشكلة طاقة الحوسبة.

تأمل Stability.ai في فتح Stable LM 3B مفتوح المصدر لمساعدة المطورين الذين ليس لديهم موارد حوسبة ضخمة على إنشاء منتجات ذكاء اصطناعي توليدية صغيرة وصغيرة الحجم يمكن تشغيلها بأمان وثبات على الأجهزة المحمولة.

مجموعة بيانات التدريب المستقرة LM 3B

على الرغم من أن النموذج يحتوي على 3 مليارات معلمة فقط، فإنه يستخدم مجموعة بيانات تدريب ضخمة مكونة من 1 تريليون رمز بما في ذلك النص والكود وWikipedia وArXiv والكتب وC4 وغيرها من البيانات.

تتم تصفية مجموعة البيانات هذه وخلطها من عدة مجموعات بيانات واسعة النطاق مفتوحة المصدر، بما في ذلك Falcon RefinedWeb وRedPajama-Data وThe Pile وStarCoder.

يتيح ذلك لـ Stable LM 3B تجاوز النماذج ذات الحجم نفسه بموارد أقل، بل إنه أقوى من بعض النماذج الكبيرة التي تحتوي على 7 مليار أو 10 مليار معلمة.

عملية تدريب LM 3B مستقرة

يبدأ Stable LM 3B بتدريب دقيق bfloat16 يبلغ 972 كيلو بايت، وطول السياق العالمي هو 4096، بدلاً من التحسين متعدد المراحل من 2048 إلى 4096 مثل StableLM-Alpha v2.

استخدمت Stability.ai AdamW لتحسين الأداء واستخدمت عملية إحماء خطية لأول 4800 خطوة، متبوعة بجدول تناقص جيب التمام لتقليل معدل التعلم إلى 4% من الذروة.

يُعزى عدم الاستقرار المبكر إلى الإقامة لفترات طويلة في منطقة ذات معدل تعليم مرتفع. نظرًا لأن النموذج صغير نسبيًا، فلا يتم استخدام التسرب.

أثناء عملية التدريب، تقوم Stability.ai بتقييم معايير اللغة الطبيعية وتلاحظ التحسينات المطردة من التدريب في نهاية جدول انخفاض معدل التعلم. ولهذا السبب، قرر المطورون تقليل معدل التعلم خطيًا إلى 0، على غرار ما فعله تشاي وآخرون، على أمل تحقيق أداء أفضل.

بالإضافة إلى ذلك، تعتمد المرحلة الأولية من التدريب المسبق على واجهة برمجة تطبيقات Flash-Attention ودعمها الجاهز للإخفاء السببي الثلاثي. وهذا يفرض على النموذج التعامل مع المستندات المختلفة في التسلسل المعبأ بطريقة مماثلة.

أثناء مرحلة التهدئة، يقوم Stability.ai بإعادة تعيين معرفات الموضع وأقنعة الانتباه عند علامات التخلص من الذخائر المتفجرة لجميع التسلسلات المعبأة بعد المراقبة التجريبية لجودة العينة المحسنة (على سبيل المثال: تقليل الازدواجية) في التجارب المتزامنة.

فيما يتعلق بالأجهزة، تم تدريب StableLM-3B على مجموعة الحوسبة الخاصة بـ Stability AI. تحتوي المجموعة على 256 بطاقة رسومات NVIDIA A100 بسعة 40 جيجابايت. بدأ التدريب في 23 أغسطس 2023، واستغرق استكماله حوالي 30 يومًا.

فيما يتعلق باختبار الأداء، تم اختبار StableLM-3B في إطار تقييم أحزمة lm-uation-harness بدون عينة. أظهرت النتائج أن الأداء ليس أقل من النموذج الذي يحتوي على 7 مليار معلمة، بل إنه أقوى من بعض النماذج التي تحتوي على 10 مليار معلمة.

مادة هذه المقالة مأخوذة من الموقع الرسمي لـ Stability.ai، إذا كان هناك أي انتهاك، يرجى الاتصال بنا لحذفه.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1Gate Launchpad List IKA
50k درجة الشعبية
2ETH Back to $3,800
7k درجة الشعبية
3Tariff Deal New Update
6k درجة الشعبية
4Stablecoin Regulation
658 درجة الشعبية
5Gate ETH 10th Anniversary Celebration
24k درجة الشعبية

تثبيت

خريطة الموقع