تدريب لمدة نصف يوم بميزانية قدرها 1000 يوان، ويكون التأثير مشابهًا للنماذج الكبيرة السائدة والمصدر المفتوح والمتوفر تجاريًا الصيني LLaMA-2

2023-09-25 05:56:51

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

بالمقارنة مع LLaMA-1، يقدم LLaMA-2 المزيد من النصوص عالية الجودة، ويحقق تحسينات كبيرة في الأداء، ويسمح له بالكامل بالاستخدام التجاري، مما يزيد من تحفيز ازدهار مجتمع المصادر المفتوحة وتوسيع خيال التطبيق للنماذج واسعة النطاق. ومع ذلك، فإن تكلفة التدريب المسبق للنماذج الكبيرة من الصفر مرتفعة جدًا، ويُطلق عليها مازحًا "50 مليون دولار لدخول اللعبة"، الأمر الذي يثبط عزيمة العديد من الشركات والمطورين. إذًا كيف يمكنك بناء نماذجك الكبيرة بتكلفة أقل؟

بصفته رائدًا في خفض التكاليف وزيادة الكفاءة للنماذج الكبيرة، يستفيد فريق Colossal-AI بشكل كامل من القدرات الأساسية لـ LLaMA-2 ويعتمد أساليب تدريب فعالة، باستخدام حوالي 8.5 مليار من البيانات الرمزية فقط، و15 ساعة، وآلاف اليوانات. في تكاليف التدريب ** تم بنجاح بناء LLaMA-2 الصيني بأداء ممتاز، والذي يتمتع بأداء ممتاز في قوائم تقييم متعددة.

بالمقارنة مع LLaMA-2 الأصلي، على أساس التحسين الناجح للقدرة الصينية، فقد قامت بتحسين قدرتها على اللغة الإنجليزية بشكل أكبر، وأدائها مشابه لنموذج SOTA المدرب مسبقًا بنفس الحجم في مجتمع مفتوح المصدر. من خلال الالتزام بمبدأ المصدر المفتوح الثابت لفريق Colossal-AI، ** تكون عملية التدريب بأكملها والأكواد والأوزان مفتوحة المصدر تمامًا، دون أي قيود تجارية، ** ويتم توفير إطار نظام تقييم كامل Colossal لتحقيق تكلفة منخفضة قابلية اعادة الأنتاج. يمكن أيضًا نقل الحلول ذات الصلة إلى أي مجال رأسي ويمكن استخدامها لبناء نماذج مدربة مسبقًا منخفضة التكلفة من البداية.

كود المصدر المفتوح والوزن:

أداء

*ملاحظة: استنادًا إلى النتيجة الهائلة، تأتي النتائج الموجودة بين قوسين من نتائج القائمة الرسمية للنماذج المقابلة، وتأتي النتيجة C من موقع الويب الرسمي ليدربورد. *

في قوائم التقييم الصينية والإنجليزية الشائعة، يمكننا أن نرى أنه في قائمة MMLU الإنجليزية، تغلبت قاعدة Colossal-LLaMA-2-7B-base على مشكلة النسيان الكارثي بدعم من التدريب المسبق المتزايد منخفض التكلفة. 44.47 -> 53.06)، الأداء ممتاز بين جميع نماذج مقياس 7B.

في القائمة الصينية، تمت مقارنة CMMLU وAGI وGAOKAO وC- بشكل أساسي، ويتجاوز التأثير بكثير نماذج الترجمة الصينية الأخرى المستندة إلى LLaMA-2. حتى بالمقارنة مع النماذج الأخرى المعروفة التي تستخدم المجموعة الصينية وقد تكلف عشرات الملايين من الدولارات للتدريب المسبق من الصفر، لا يزال أداء Colossal-LLaMA-2 جيدًا على نفس النطاق. بالمقارنة مع LLaMA-2 الأصلي، كانت هناك قفزة نوعية في القدرة الصينية (CMMLU: 32.97 -> 49.89).

ومع ذلك، من خلال الضبط الدقيق من خلال SFT وLoRA وغيرها من الأساليب، فإن المعرفة والقدرة التي يمكن حقنها بشكل فعال في النموذج الأساسي محدودة للغاية، ولا يمكنها تلبية احتياجات بناء معرفة مجال عالية الجودة أو تطبيقات النماذج الرأسية بشكل أفضل.

من أجل تقييم أداء النموذج بشكل أفضل، لا يعتمد فريق Colossal-AI على المؤشرات الكمية فحسب، بل يقوم أيضًا بتقييم الجوانب المختلفة للنموذج يدويًا، وفيما يلي بعض الأمثلة:

انطلاقًا من سجل الخسارة للتدريب بأكمله، مع الاستفادة من قدرة نظام Colossal-AI على تقليل التكاليف وزيادة الكفاءة، فإن تقارب النموذج مضمون تمامًا أيضًا، مع حوالي 8.5 مليار رمز فقط (8.5 مليار رمز) وقوة حوسبة بتكلفة عدة آلاف من اليوانات، دع النموذج يحقق مثل هذه التأثيرات المذهلة. ومع ذلك، غالبًا ما تستخدم النماذج الكبيرة في السوق تريليونات من الرموز المميزة للتدريب لضمان نتائج فعالة، وهو أمر مكلف للغاية.

إذًا كيف تمكن فريق Colossal-AI من تقليل تكاليف التدريب وتحقيق هذه النتائج؟

توسيع المفردات وتهيئة النموذج

قائمة المفردات الأصلية لـ LLaMA-2 لم يتم تحسينها خصيصًا للغة الصينية وتحتوي على كلمات صينية محدودة، مما يؤدي إلى عدم فهم كافٍ للنصوص الصينية. لذلك، تم توسيع مفردات LLaMA-2 لأول مرة.

وجد فريق Colossal-AI ما يلي:

لا يؤدي توسيع المفردات إلى تحسين كفاءة ترميز تسلسل السلسلة بشكل فعال فحسب، بل يمكنه أيضًا جعل تسلسل الترميز يحتوي على معلومات أكثر فعالية، والتي ستكون أكثر فائدة في التشفير والفهم على مستوى الفصل.
ومع ذلك، نظرًا للكمية الصغيرة من بيانات ما قبل التدريب الإضافية، فإن توسيع المزيد من الكلمات سيؤدي إلى عدم وجود معنى عملي لبعض الكلمات أو المجموعات، مما يجعل من الصعب التعلم الكامل لمجموعة بيانات ما قبل التدريب الإضافية، مما يؤثر على التأثير النهائي.
المفردات الكبيرة بشكل مفرط ستؤدي إلى زيادة في المعلمات المتعلقة بالتضمين، مما يؤثر على كفاءة التدريب.

لذلك، بعد التجارب المتكررة ومراعاة جودة التدريب وكفاءته، قرر فريق Colossal-AI أخيرًا توسيع مفردات LLaMA-2 الأصلية البالغة 32000 إلى 69104.

مع المفردات الموسعة، فإن الخطوة التالية هي بدء تضمين المفردات الجديدة بناءً على LLaMA-2 الأصلي. من أجل ترحيل القدرات الأصلية لـ LLaMA-2 بشكل أفضل وتحقيق الترحيل السريع من قدرات LLaMA-2 الأصلية إلى قدرات LLaMA-2 الصينية، استخدم فريق Colossal-AI أوزان LLaMA-2 الأصلية لحساب متوسط التضمين الجديد. التهيئة. وهذا لا يضمن فقط عدم تأثر قدرة اللغة الإنجليزية للنموذج الذي تمت تهيئته حديثًا في الحالة الأولية، ولكنه يسمح أيضًا بنقل القدرة الإنجليزية إلى اللغة الصينية بسلاسة قدر الإمكان.

بناء البيانات

ومن أجل تقليل تكلفة التدريب إلى حد أكبر، تلعب البيانات عالية الجودة دورًا رئيسيًا، خاصة بالنسبة للتدريب المسبق الإضافي، الذي يتطلب متطلبات عالية للغاية لجودة البيانات وتوزيعها. من أجل فحص البيانات عالية الجودة بشكل أفضل، قام فريق Colossal-AI ببناء نظام كامل لتنظيف البيانات ومجموعة أدوات لفحص البيانات عالية الجودة للتدريب المسبق المتزايد.

توضح الصور التالية العملية الكاملة لإدارة البيانات لفريق Colossal-AI:

بالإضافة إلى التصفية الإرشادية الشائعة وإلغاء البيانات المكررة، فإنه يقوم أيضًا بإجراء تسجيل وتصنيف وتصفية للبيانات الرئيسية. تلعب البيانات المناسبة دورًا حاسمًا في تحفيز قدرة LLaMA-2 الصينية مع التغلب على مشكلة النسيان الكارثية في اللغة الإنجليزية.

أخيرًا، ومن أجل تحسين كفاءة التدريب، بالنسبة لبيانات نفس الموضوع، قام فريق Colossal-AI بفرز طول البيانات وتقسيمها وفقًا للحد الأقصى للطول وهو 4096.

استراتيجية التدريب

تدريب متعدد المراحل

فيما يتعلق بالتدريب، وبالنظر إلى خصائص التدريب المسبق التزايدي، صمم فريق Colossal-AI خطة تدريب مسبق تزايدي متعددة المراحل، وتقسيم عملية التدريب إلى ثلاث مراحل:

* مرحلة ما قبل التدريب واسعة النطاق: الهدف هو تدريب النموذج من خلال كمية كبيرة من النصوص حتى يتمكن النموذج من إنتاج نص سلس نسبيًا. تكتمل هذه المرحلة بواسطة LLaMA-2، بعد هذه المرحلة، يتقن النموذج قدرًا كبيرًا من المعرفة باللغة الإنجليزية ويمكنه إنتاج نتائج سلسة بناءً على التنبؤ بالرمز التالي.

مرحلة حقن المعرفة الصينية: تعتمد هذه المرحلة على المعرفة الصينية عالية الجودة، فهي من ناحية تعزز إتقان النموذج للمعرفة الصينية، ومن ناحية أخرى تعمل على تحسين فهم النموذج للكلمات في المفردات الصينية المضافة حديثا.
مرحلة تشغيل المعرفة ذات الصلة: هذه المرحلة مخصصة لتعزيز فهم النموذج وقدرته على تعميم المعرفة والتخفيف من مشكلة النسيان الكارثي.

تكمل المراحل المتعددة بعضها البعض وتضمن في النهاية أن قدرات النموذج باللغتين الصينية والإنجليزية تسير جنبًا إلى جنب.

تدريب الدلو

يعد التدريب المسبق الإضافي حساسًا للغاية لتوزيع البيانات، كما أن التوازن له أهمية خاصة. لذلك، من أجل ضمان التوزيع المتوازن للبيانات، صمم فريق Colossal-AI استراتيجية تجميع البيانات لتقسيم نفس النوع من البيانات إلى 10 صناديق مختلفة. أثناء عملية التدريب، تحتوي كل مجموعة بيانات بالتساوي على سلة لكل نوع من البيانات، وبالتالي ضمان إمكانية استخدام كل نوع من البيانات بالتساوي بواسطة النموذج.

نظام التقييم

من أجل تقييم أداء النموذج بشكل أفضل، قام فريق Colossal-AI ببناء نظام تقييم كامل - Colossal، على أمل تقييم نماذج اللغة الكبيرة من خلال أبعاد متعددة. رمز إطار العملية مفتوح المصدر تمامًا، ولا يدعم إعادة إنتاج النتائج فحسب، بل يدعم أيضًا المستخدمين لتخصيص مجموعات البيانات وطرق التقييم وفقًا لسيناريوهات التطبيق المختلفة. وتتلخص سمات إطار التقييم فيما يلي:

يغطي مجموعات البيانات الشائعة مثل MMLU، وCMMLU، وما إلى ذلك لتقييم قدرات احتياطي المعرفة لنماذج اللغات الكبيرة. بالنسبة لشكل أسئلة الاختيار الواحد، بالإضافة إلى طريقة الحساب الشائعة لمقارنة احتمالات ABCD، تتم إضافة طرق حسابية أكثر شمولاً، مثل المطابقة المطلقة، وحيرة الاختيار الواحد، وما إلى ذلك، من أجل قياس مدى إتقان النموذج بشكل أكثر شمولاً. من المعرفة . .
يدعم تقييمات الاختيار من متعدد وتقييمات النص الطويل.
يدعم أساليب التقييم لسيناريوهات التطبيق المختلفة، مثل الحوار متعدد الجولات، ولعب الأدوار، واستخراج المعلومات، وتوليد المحتوى، وما إلى ذلك. يمكن للمستخدمين تقييم قدرات الجوانب المختلفة للنموذج بشكل انتقائي وفقًا لاحتياجاتهم الخاصة، ودعم توسيع طرق التخصيص والتقييم.

إنشاء جسر للانتقال من النماذج الكبيرة العامة إلى النماذج الكبيرة العمودية

انطلاقًا من تجربة فريق Colossal-AI، يمكن تقسيم بناء النسخة الصينية من النموذج استنادًا إلى LLaMA-2 بشكل أساسي إلى العمليات التالية:

فهل يمكن إعادة استخدام هذا الحل؟

الإجابة هي نعم، وهي ذات مغزى كبير في سيناريو تنفيذ الأعمال.

مع موجة الذكاء الاصطناعي التي أطلقها ChatGPT، يتسابق كبار عمالقة الإنترنت وشركات الذكاء الاصطناعي والشركات الناشئة والجامعات والمؤسسات البحثية حول العالم على مسار النماذج الكبيرة العامة. ومع ذلك، غالبًا ما يكون هناك نقص في المعرفة في مجالات محددة خلف القدرات العامة للنماذج الكبيرة العامة، لذلك، في التنفيذ الفعلي، تصبح مشكلة وهم النماذج الكبيرة خطيرة بشكل خاص. على الرغم من أن ضبط الأعمال يمكن أن يحقق مكاسب معينة، إلا أن عدم وجود نماذج رأسية كبيرة يؤدي إلى اختناقات في الأداء في تنفيذ التطبيقات. إذا كان من الممكن بناء نموذج رأسي كبير بسرعة وبتكلفة منخفضة، ومن ثم يمكن ضبط الأعمال بشكل دقيق بناءً على النموذج الرأسي الكبير، فسنكون بالتأكيد قادرين على اتخاذ خطوة أخرى إلى الأمام في تنفيذ الأعمال واغتنام الفرص والمزايا.

من خلال تطبيق العملية المذكورة أعلاه لنقل المعرفة في أي مجال، يمكنك بناء عملية خفيفة الوزن لبناء نماذج قاعدة رأسية كبيرة في أي مجال وبتكلفة منخفضة: **

للتدريب المسبق وبناء نموذج أساسي كبير من الصفر، يمكننا أيضًا الاعتماد على الخبرة المذكورة أعلاه وقدرات Colossal-AI في تقليل التكلفة وتعزيز الكفاءة لإكماله بكفاءة وبأقل تكلفة.

** تحسين النظام **

إن الأداء المتميز المذكور أعلاه ومزايا التكلفة لـ Colossal-LLaMA-2 مبنية على نظام تطوير النماذج الكبيرة ذو الذكاء الاصطناعي منخفض التكلفة Colossal-AI.

يعتمد Colossal-AI على PyTorch، والذي يمكنه تقليل تكاليف التطوير والتطبيق لتدريب/ضبط/استدلال النماذج الكبيرة للذكاء الاصطناعي، وتحسين أداء مهمة النموذج، وتقليل متطلبات وحدة معالجة الرسومات من خلال التوازي الفعال متعدد الأبعاد، والذاكرة غير المتجانسة، وما إلى ذلك. في ما يزيد قليلاً عن عام، حصلت على أكثر من 30000 نجمة من GitHub في مجتمع GitHub مفتوح المصدر، لتحتل المرتبة الأولى في العالم في أدوات تطوير النماذج الكبيرة وتجزئة المجتمع، وتم تطويرها بشكل مشترك مع العديد من الشركات المصنعة المعروفة بما في ذلك أفضل الشركات في العالم. 500 شركة/ تحسين 100 مليار/10 مليار معلمة للتدريب المسبق للنماذج الكبيرة أو إنشاء نماذج رأسية.

المنصة السحابية الضخمة ذات الذكاء الاصطناعي

من أجل زيادة تحسين كفاءة تطوير النماذج الكبيرة للذكاء الاصطناعي ونشرها، تمت ترقية Colossal-AI إلى النظام الأساسي السحابي Colossal-AI، والذي يسمح للمستخدمين بإجراء تدريب على النماذج الكبيرة وضبطها ونشرها في السحابة بتكلفة منخفضة. -طريقة الكود/بدون كود بتكلفة منخفضة، يتم دمج النماذج المختلفة بسرعة في التطبيقات المخصصة.

في الوقت الحاضر، تم إعداد النماذج والحلول السائدة مثل Stable diffusion وLLaMA-2 مسبقًا على النظام الأساسي السحابي Colossal-AI. ويحتاج المستخدمون فقط إلى تحميل بياناتهم الخاصة للضبط الدقيق. وفي الوقت نفسه، يمكنهم أيضًا نشر بياناتهم الدقيقة تتيح لك النماذج المضبوطة مثل واجهات برمجة التطبيقات بأسعار معقولة استخدام A10 وA800 وH800 وموارد GPU الأخرى دون الحاجة إلى الحفاظ على مجموعات الحوسبة الخاصة بك والبنى التحتية المتنوعة. يتم باستمرار تكرار المزيد من سيناريوهات التطبيق، والمجالات المختلفة، وإصدارات مختلفة من النماذج، ونشر منصة خصخصة المؤسسة، وما إلى ذلك.

منصة سحابية ضخمة تعمل بالذكاء الاصطناعي: Platform.luchentech.com
وثائق النظام السحابي Colossal-AI:
عنوان مفتوح المصدر لـ Colossal-AI:

رابط المرجع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1

أعجبني
1
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1Simple Earn Annual Rate 24.4%
37k درجة الشعبية
2Gate Launchpad List IKA
39k درجة الشعبية
3ETH Trading Volume Surges
40k درجة الشعبية
4Gate ETH 10th Anniversary Celebration
22k درجة الشعبية
5Trump’s AI Strategy
18k درجة الشعبية

تثبيت

خريطة الموقع