مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
أظهرت نماذج اللغة الكبيرة (LLMs) أداء ممتازا في مجموعة متنوعة من مهام اللغة الطبيعية ، ولكن لا تزال هناك العديد من المشكلات العملية في تطبيق نماذج اللغة الكبيرة في المجال المهني بسبب التكلفة العالية للتدريب واستنتاج نماذج المعلمات الكبيرة. لذلك ، بدأ الفريق بنماذج خفيفة الوزن لزيادة مزايا البيانات والنماذج إلى أقصى حد ، بناء على خدمة مجالات محددة بشكل أفضل ، وتقليل تكاليف التدريب والاستدلال للمهام النهائية.
في 24 أكتوبر ، أصدر فريق معالجة اللغة الطبيعية في معهد بكين للتكنولوجيا سلسلة من نماذج اللغات الكبيرة خفيفة الوزن ثنائية اللغة (Min**g D ** e LLM) - MindLLM ، والتي تقدم بشكل شامل الخبرة المتراكمة في عملية تطوير النموذج على نطاق واسع ، والتي تغطي كل خطوة مفصلة من بناء البيانات ، وهندسة النموذج ، والتقييم وعملية التطبيق. يتم تدريب MindLLM من الألف إلى الياء ويأتي في الإصدارات 1.3B و 3B ، ويطابق باستمرار أو يتفوق على أداء النماذج الكبيرة الأخرى مفتوحة المصدر في بعض المعايير العامة. كما تعزز MindLLM قدراتها من خلال تقديم إطار ضبط تعليمي مبتكر مصمم خصيصا للنماذج الأصغر. بالإضافة إلى ذلك ، بالنسبة للتطبيقات في قطاعات محددة مثل القانون والتمويل ، تتمتع MindLLM أيضا بقدرة ممتازة على التكيف مع المجال.
*عنوان:
** يسلط الضوء على MindLLM **
شاركنا خبرتنا في معالجة البيانات ، بما في ذلك الحفاظ على نص ويب عالي الجودة ونسبة عالية ، والحفاظ على البيانات طويلة المدى مثل الكتب والمحادثات ، وبيانات الرياضيات المختصرة ، وبيانات كود أخذ العينات. نوصي بخلط البيانات بالتساوي لتعلم الكفاءة وتقطيع بعض العينات لسيناريوهات التعلم الصغيرة.
تفوقت نتائج التقييم لدينا على بعض النماذج الكبيرة ، وتفوق نموذج MindLLM على النماذج الكبيرة مثل MPT-7B و GPT-J-6B في تقييمات MMLU و AGI دون ضبط التعليمات ومواءمتها. في اللغة الصينية ، يظهر MindLLM أداء مشابها للنماذج البارامترية الأكبر على C- و CMMLU. على وجه التحديد ، يتفوق MindLLM-3B على النماذج الأكبر مثل MOSS-Base-16B و MPT-7B في القدرة الرياضية ، ويتفوق على Baichuan2-7B و MOSS-Base-16B في ثنائية اللغة. علاوة على ذلك ، فإن MindLLM-1.3B أفضل رياضيا من GPT-Neo-1.3B من نفس الحجم.
قارنا استراتيجيتين تدريبيتين مختلفتين في التعلم ثنائي اللغة ونظرنا في تأثير ما إذا كانت البيانات موزعة بالتساوي خلال فترة ما قبل التدريب أم لا. نستنتج أنه بالنسبة للنماذج خفيفة الوزن (≤7B) ذات مقياس السعة المحدود ، ليس من الأفضل تحقيق قدرات معقدة مثل المحاذاة الرياضية أو المنطقية أو ثنائية اللغة من خلال استراتيجيات مدربة مسبقا ثم مدربة على النقل لأنه من الصعب دمج المعرفة الجديدة والحالية. في المقابل ، تتمثل الإستراتيجية الأكثر فاعلية في البدء من الصفر ودمج أنواع بيانات متعددة مع احتياجات المهام النهائية لضمان الحصول على القدرات المطلوبة باستمرار وكفاءة.
لقد وجدنا أن استخدام البيانات المخصصة لقدرات محددة أثناء ضبط التعليمات يمكن أن يعزز بشكل كبير القدرات المحددة للنماذج خفيفة الوزن ، مثل التفكير الشامل أو معرفة الموضوع.
نقدم نهجا لبناء مجموعة تعليمات باستخدام استراتيجية تصفية الكتلة القائمة على الإنتروبيا ونظهر فعاليتها في تصفية بيانات ضبط التعليمات عالية الجودة للنماذج خفيفة الوزن. لقد أثبتنا أنه في سياق النماذج خفيفة الوزن ، يمكن تحسين أداء النموذج بشكل أكثر فعالية من خلال تحسين جودة بيانات ضبط التعليمات ، بدلا من مجرد زيادة كمية البيانات.
أظهرت نماذجنا أداء ممتازا في مجالات محددة ، لا سيما في مجالات مثل القانون والتمويل. وجدنا أن الاختلافات في حجم معلمات النموذج لا تنتج اختلافات كبيرة داخل مجال معين ، وأن النماذج الأصغر يمكن أن تتفوق على النماذج الأكبر. يتفوق نموذجنا على جميع الطرز ذات أحجام المعلمات من 1.3B إلى 3B في مجال معين ، بينما يظل قادرا على المنافسة مع النماذج ذات أحجام المعلمات التي تتراوح من 6B إلى 13B ، ويتم تعزيز قدرة النموذج على التصنيف ضمن مجال معين بشكل كبير في إطار نهج COT.
** البيانات ذات الصلة **
معالجة البيانات
نحن نستخدم بيانات التدريب باللغتين الإنجليزية والصينية. تم اشتقاق البيانات الإنجليزية من مجموعة بيانات Pile وتمت معالجتها بشكل أكبر. تتضمن البيانات الصينية بيانات التدريب من مصادر مفتوحة مثل Wudao و CBooks ، بالإضافة إلى البيانات التي نزحف إليها من الإنترنت. لضمان جودة البيانات ، نستخدم طرقا صارمة لمعالجة البيانات ، خاصة للبيانات التي يتم الزحف إليها من الويب.
يتضمن نهجنا في معالجة البيانات ما يلي:
تنظيف التنسيق: نستخدم محلل صفحة الويب لاستخراج وتنظيف محتوى النص من صفحة الويب المصدر. تتضمن هذه المرحلة إزالة شعارات HTML و CSS و JS والرموز التعبيرية عديمة الفائدة لضمان تدفق النص. بالإضافة إلى ذلك ، تعاملنا مع مشكلة التنسيق غير المتسق. لقد حافظنا أيضا على الأحرف الصينية التقليدية الصينية حتى تتمكن عارضاتنا من تعلم الأدب القديم أو الشعر.
تصفية البيانات منخفضة الجودة: نقوم بتقييم جودة البيانات بناء على نسبة النص إلى المحتوى في صفحة الويب. على وجه التحديد ، نستبعد الصفحات ذات كثافة النص أقل من 75٪ أو أقل من 100 حرف صيني. تم تحديد هذا الحد من خلال الاختبار الأولي لعينة من صفحات الويب.
إلغاء البيانات المكررة: نظرا لأن بيانات WuDao مشتقة أيضا من صفحات الويب ، فقد تنشر بعض مواقع الويب نفس المعلومات بشكل متكرر. لذلك ، نستخدم خوارزمية تجزئة حساسة محليا لإزالة المحتوى المكرر مع الحفاظ على تنوع بيانات التدريب الخاصة بنا.
تصفية المعلومات الحساسة: نظرا لأن صفحات الويب غالبا ما تحتوي على محتوى حساس ، فقد استخدمنا الاستدلال والمعاجم الحساسة لاكتشاف هذا المحتوى وتصفيته من أجل بناء نموذج لغوي إيجابي. لحماية الخصوصية ، نستخدم التعبيرات العادية لتحديد المعلومات الخاصة ، مثل أرقام الهوية وأرقام الهواتف وعناوين البريد الإلكتروني ، واستبدالها بعلامات خاصة.
تصفية البيانات منخفضة المعلومات: غالبا ما تظهر البيانات منخفضة المعلومات، مثل الإعلانات، كمحتوى مكرر. لذلك ، نحدد هذا النوع من المحتوى من خلال تحليل تكرار العبارات في محتوى النص لصفحة الويب. نعتقد أن التكرار المتكرر للعبارات من نفس الموقع قد يكون ضارا بالتعلم النموذجي. نتيجة لذلك ، تركز فلاترنا بشكل أساسي على العبارات المتكررة المستمرة في الإعلانات أو مواقع الويب غير المصادق عليها.
في النهاية حصلنا على البيانات التالية:
قانون التحجيم
لضمان الأداء الأمثل في مواجهة زيادة تكاليف التدريب للتعلم العميق ونماذج اللغات الكبيرة ، أجرينا دراسة للعلاقة بين حجم البيانات وسعة النموذج ، والمعروفة باسم قانون التحجيم. قبل أن نشرع في تدريب نموذج لغوي كبير بمليارات المعلمات ، نقوم أولا بتدريب نموذج أصغر لإنشاء نمط تحجيم لتدريب نموذج أكبر. تتراوح أحجام نماذجنا من 10 ملايين إلى 500 مليون معلمة ، ويتم تدريب كل نموذج على مجموعة بيانات تحتوي على ما يصل إلى 10 مليارات رمز. تستخدم هذه التدريبات إعدادات المعلمات الفائقة المتسقة ، بالإضافة إلى نفس مجموعة البيانات كما ذكرنا سابقا. من خلال تحليل الخسارة النهائية للنماذج المختلفة ، تمكنا من إنشاء رسم خرائط من تدريب FLOP (عملية النقطة العائمة) إلى الخسارة. كما هو موضح في الشكل أدناه ، تختلف كمية بيانات التدريب المشبعة بنماذج ذات أحجام مختلفة ، ومع زيادة حجم النموذج ، تزداد أيضا بيانات التدريب المطلوبة. من أجل تلبية متطلبات البيانات الدقيقة للنموذج المستهدف ، استخدمنا صيغة قانون الطاقة لتناسب قانون التوسع للنموذج ، وتوقعنا كمية بيانات التدريب وقيمة الخسارة لنموذج المعلمة 3B ، وقارنناها بالنتائج الفعلية (النجوم في الشكل).
دورة اختلاط البيانات والبيانات
يغطي تأثير البيانات على النموذج بشكل رئيسي جانبين: (1) نسبة الخلط ، والتي تنطوي على كيفية دمج البيانات من مصادر مختلفة لبناء مجموعة بيانات ذات حجم معين بميزانية تدريب محدودة. و (2) دورات البيانات ، والتي تتعامل مع ترتيب البيانات من مصادر مختلفة لتدريب المهارات الخاصة بالنموذج.
قمنا بتقليص كل مصدر بيانات لتدريب نموذج بمعلمات 15M. كما هو موضح في الشكل أدناه ، فإن الأنواع المختلفة من البيانات لها تأثيرات مختلفة على كفاءة التعلم والنتيجة النهائية للنموذج. على سبيل المثال ، تحتوي مشكلة الرياضيات على خسارة نهائية أقل للبيانات وأسرع في التعلم ، مما يشير إلى أن لها نمطا أكثر وضوحا ويسهل تعلمها. في المقابل ، تستغرق البيانات من الكتب الإعلامية أو نصوص الويب المتنوعة وقتا أطول للتكيف. قد تكون بعض مجالات البيانات المماثلة أقرب من حيث الخسائر ، مثل البيانات والموسوعات المتعلقة بالتكنولوجيا.
من أجل مواصلة استكشاف أداء النموذج المعمم من بيانات واحدة إلى بيانات أخرى ، نستخدم هذه النماذج المدربة على بيانات واحدة للاختبار على بيانات أخرى ، وتظهر النتائج في الشكل التالي:
تظهر مجموعات البيانات المختلفة درجات مختلفة من القدرة على التعميم ، على سبيل المثال ، يظهر النموذج المدرب على نص الويب والموسوعة وبيانات الأسئلة والأجوبة قدرة تعميم قوية على مصادر بيانات متعددة ، مما يشير إلى أن محتواها يحتوي على معلومات متنوعة في مختلف المجالات. في المقابل ، تتفوق النماذج المدربة على بيانات الأوراق الأكاديمية وبيانات الكود في القدرة الرياضية ولكنها ضعيفة في التعميم ، ويرجع ذلك على الأرجح إلى خصوصية المجال ومعلومات التنسيق الفريدة.
بالإضافة إلى ذلك، أجرينا تعديلات متعددة على مقياس البيانات لتحقيق التوازن بين أداء النموذج عبر مختلف المهارات وأنواع البيانات. بناء على تجاربنا ، انتهينا من بعض المبادئ لنسب خلط البيانات:
الحفاظ على نسبة من نصوص الويب عالية الجودة وبيانات الموسوعة بسبب تنوعها.
تقليل نسبة البيانات الرياضية لتجنب الإفراط في التجهيز.
تعزيز الرياضيات مع التعليمات البرمجية والبيانات الأكاديمية مع التخفيف من التنسيق من خلال أخذ العينات المتنوعة والمعالجة ذات الصلة.
احتفظ ببعض بيانات المحادثة والكتاب لمساعدتك على تعلم التبعيات طويلة المدى.
بالإضافة إلى نسبة المزيج ، تؤثر دورة البيانات (الترتيب الذي يتم به تدريب البيانات) أيضا على قدرة النموذج على التعلم. أظهرت التجارب أن البيانات من مصادر مختلفة ستجعل النموذج يتعلم مهارات مختلفة ، وأن اعتماد نظام تعلم معين قد يساعد النموذج على تعلم مهارات جديدة بسبب الارتباط بين المهارات. تركز تجاربنا على تأثير البيانات المختلطة غير الموحدة وتعلم نقل اللغة على قدرات النموذج. تظهر تجاربنا أن البيانات المختلطة غير المتجانسة تؤدي إلى التدريب المستمر للنموذج على نفس النوع من البيانات ، وهو أقرب إلى سياق التعلم في السياق ، وبالتالي يؤدي أداء أفضل في التعلم قليل الطلقات. ومع ذلك ، بسبب عدم تكافؤ التعلم ، قد تكون هناك ظاهرة ملحوظة للنسيان في المراحل اللاحقة. بالإضافة إلى ذلك ، يساعد تعلم نقل اللغة النموذج على اكتساب القدرة ثنائية اللغة ، ويمكن تحسين الأداء العام من خلال محاذاة اللغة ، لكننا نعتقد أن التدريب باستخدام بيانات اللغة المختلطة يفضي أكثر إلى تخصيص واكتساب قدرة النموذج.
** بنية نموذج MindLLMs **
يستخدم MindLLM-1.3B نفس بنية النموذج مثل GPTNeo-1.3B ، بينما يضيف MindLLM-3B بعض التحسينات فوقه. استنادا إلى استقرار التدريب وقدرات النموذج ، نستخدم ترميز الموضع الدوار (RoPE) DeepNorm و RMS Norm و FlashAttention-2 و GeGLU ومشغلي التحسين الآخرين.
أضفنا مفردات صينية على أساس GPTNeo-1.3B واستخدمنا استراتيجيات التعلم التحويلي لتدريب القدرة ثنائية اللغة ل MindLLM-1.3B. بالنسبة إلى MindLLM-3B ، نستخدم BPE من SentencePiece لترميز البيانات ، ويبلغ حجم المفردات النهائية ل Tokenizer الخاص بنا 125,700. من خلال طريقتين مختلفتين للتدريب ثنائي اللغة ، قمنا بتلخيص بعض الأساليب الشائعة والعملية لما قبل التدريب.
** ما قبل التدريب **
تفاصيل ما قبل التدريب
استخدمنا استراتيجيتين مختلفتين لتدريب النموذج ثنائي اللغة MindLLM de novo. بالنسبة ل MindLLM-3B ، قمنا بتدريب 800،00 خطوة مباشرة على بيانات ثنائية اللغة مختلطة باللغتين الصينية والإنجليزية أثناء تعلم إتقان اللغة الصينية والإنجليزية. بالنسبة إلى MindLLM-1.3B ، قمنا أولا بتدريب 101,100 خطوة مسبقا على مجموعة البيانات الإنجليزية ثم قمنا بتدريب 105,900 خطوة باستخدام بيانات مختلطة باللغتين الصينية والإنجليزية. تفاصيل ما قبل التدريب هي كما يلي:
### تقييم مرحلة ما قبل التدريب
نموذج أصغر يمكن أن يتفوق على نموذج أكبر
لتقييم قدرة النموذج الصينية والإنجليزية ، استخدمنا MMLU (5 طلقات) و AGI (4 طلقات) لتقييم قدرة النموذج على اللغة الإنجليزية ، و C- (5 طلقات) و CMMLU (4 طلقات) لتقييم القدرة الصينية للنموذج. يستخدم AGI جزءا متعدد الخيارات من الجزء الإنجليزي. نتائج التقييم هي كما يلي:
من حيث الأداء الإنجليزي ، تتفوق MindLLMs على GPT-J-6B و MPT-7B و MOSS-Base-16B وغيرها من النماذج الأكبر في المتوسط ، وتقترب من Falcon-7B ، التي تحتوي على أحجام نماذج أكبر والمزيد من البيانات المدربة مسبقا. من حيث القدرة الصينية ، تعمل MindLLMs على قدم المساواة مع LLMs مفتوحة المصدر. تجدر الإشارة إلى أن MindLLMs لا يزال قيد التدريب على التحسين.
بالإضافة إلى ذلك ، وجدنا أن MindLLM-1.3B ، الذي تم تدريبه على كل من البيانات الصينية والإنجليزية ، تفوق على GPT-Neo-1.3B على MMLU ، مما يشير إلى أن هذا قد يكون مكسبا من التعلم ثنائي اللغة ، حيث توجد أوجه تشابه بين اللغات المختلفة من حيث القدرات. يمكن العثور على التجارب والتحليلات التفصيلية في القسم 4.4 من الورقة.
النماذج الأصغر لديها إمكانات كبيرة من حيث القدرات المحددة
بالنسبة للنماذج خفيفة الوزن ، عند تطبيقها على المهام النهائية ، يكفي فقط وجود القدرات ذات الصلة. لذلك ، في هذا القسم ، نريد استكشاف الأداء والعوامل المؤثرة ل MindLLMs وغيرها من LLMs خفيفة الوزن في (≤7B) قدرات محددة.
نقوم بتقييم أداء النماذج المختلفة بشكل أساسي من ثلاث وجهات نظر: القدرة الرياضية ، والقدرة على التفكير ، والقدرة على المحاذاة ثنائية اللغة ، لأن هذه القدرات الثلاث معقدة ومهمة نسبيا لتطبيق النماذج ثنائية اللغة.
(1) الرياضيات **
استخدمنا مجموعة البيانات الحسابية (5 طلقات) لتقييم القدرة الحسابية للنموذج ، و GSM8K (4 لقطات) والرياضيات (4 لقطات) لتقييم القدرة الرياضية العامة للنموذج. نتائج التقييم هي كما يلي:
我们发现,MindLLM-3B在数学能力上的平均分数达到了16.01,超过了MOSS-Base-16B(15.71)和MPT-7B(13.42),GPT-J-6B(13.15)。此外MindLLM-1.3B的数学平均水平也超过了相同大小的GPT-Neo-1.3B。以上结果表明,轻量级模型在数学上有着巨大的潜力,较小的模型也可以在具体领域表现出超越或者与更大模型相当的水平。进一步,我们可以看到数学能力较为出色的(均分≥15) ، باستثناء MindLLM-3B ، تبلغ جميع الطرز حوالي 7B. يشير هذا إلى أن الاكتساب الكامل للقدرات المعقدة مثل القدرات الرياضية قد يكون محدودا بحجم النموذج ، ويمكن أن تنعكس هذه التكهنات بشكل أكبر في تقييم ثنائية اللغة والقدرة على التفكير في النموذج.
** (2) الاستدلال**
استخدمنا HellaSwag و WinoGrande لتقييم قدرة الاستدلال اللغوي للنموذج (5 طلقات) ، LogiQA لتقييم قدرة التفكير المنطقي للنموذج (5 طلقات) ، PubMedQA و PIQA و MathQA لتقييم قدرة الاستدلال المعرفي للنموذج (5 طلقات) ، و BBH لتقييم قدرة الاستدلال الشامل للنموذج (3 طلقات). نتائج التقييم المحددة هي كما يلي:
أولا، في ظل حالة القدرة النموذجية المحدودة، قد يلزم موازنة اكتساب القدرة الناتج عن ثنائية اللغة مع استهلاك القدرة النموذجية عن طريق تعلم اللغة. يمكن أن يشغل تعلم اللغة جزءا من قدرة النموذج ، مما يجعل من الممكن اكتساب قدرات معقدة مثل القدرة على التفكير. على سبيل المثال ، MindLLM-1.3B أفضل من GPT-Neo-1.3B من حيث مؤشرات تقييم MMLU الإنجليزية ، لكنه أضعف من الأخير من حيث متوسط القدرة على التفكير (35.61 مقابل 38.95). لم تكن مهارات بلومز المنطقية جيدة بشكل خاص ، لكن ثنائية اللغة في تقييم المتابعة كانت ممتازة ، مما أكد أيضا النقطة المذكورة أعلاه إلى حد ما. على سبيل المثال ، يمكن مقارنة أداء الاستدلال ل Open-LLaMA-3B بأداء نموذج أكبر ، وبياناته المدربة مسبقا هي 1 تيرابايت ، والتي تتجاوز البيانات المدربة مسبقا المستخدمة من قبل الطرز الأخرى من نفس الحجم. نتيجة لذلك ، لا تزال النماذج الأصغر لديها القدرة على تحقيق أداء مماثل من حيث قوة الاستدلال مثل النماذج الأكبر. بالإضافة إلى ذلك ، وجدنا أن مستوى الاستدلال في MOSS لا يبدو أنه يعمل بشكل أفضل من المكاسب من تعلم بيانات الكود السابقة (واصلت MOSS التدريب على CodeGen) ، لكن العمل ذي الصلة يظهر أن الكود مفيد بالفعل لتحسين قدرة الاستدلال على النموذج ، لذلك كيف ومتى تتم إضافة بيانات الكود إلى التدريب لتعزيز قدرة الاستدلال في النموذج يستحق المزيد من المناقشة.
** (3) ثنائية اللغة**
استخدمنا قسم zh-en من Flores-101 (8 طلقات) لتقييم محاذاة النماذج ثنائية اللغة أو متعددة اللغات باللغتين الصينية والإنجليزية. قمنا بتضمين Chinese-LLaMA-2-7B ، وهو نموذج للتكيف مع المجال الصيني يعتمد على LLaMA-2-7B. النتائج هي كما يلي:
وجدنا أن أداء النموذج ضعيف في كل من الترجمات الإنجليزية إلى الصينية التقليدية ، ويرجع ذلك أساسا إلى أن البيانات المدربة مسبقا تمثل نسبة صغيرة من الصينية التقليدية. بالإضافة إلى ذلك ، تفوقت Blooms و MindLLM-3B فقط في محاذاة اللغة ثنائية الاتجاه من الصينية إلى الإنجليزية ومن الإنجليزية إلى الصينية ، تليها LLaMA-2-7B و MOSS-Base-16B. لا يمكن محاذاة LLaMA-7B و Open-LLaMA-7B إلا من الصينية إلى الإنجليزية. بالاقتران مع بيانات ما قبل التدريب للنموذج ، يمكن ملاحظة أن بيانات ما قبل التدريب ل Blooms و MindLLM-3B تحتوي على نسبة متوازنة من الصينية والإنجليزية ، في حين أن نسبة البيانات الصينية في LLaMA-2-7B أقل بكثير من نسبة اللغة الإنجليزية ، ونسبة الصينيين في بيانات ما قبل التدريب ل LLaMA-7B و Open-LLaMA-7B أقل.
لذلك ، لدينا استنتاجان ، أحدهما هو أن النموذج يمكنه تعلم تمثيل اللغة من خلال قدر كبير من التدريب على لغة واحدة ، وفي نفس الوقت يمكن فهمه ومحاذاة أحادي الاتجاه عن طريق الاختلاط في عدد صغير من اللغات الأخرى ، مثل أداء LLaMA-7B و Open-LLaMA-7B. والثاني هو أنه إذا كانت هناك حاجة إلى مواءمة ثنائية اللغة أو متعددة اللغات بشكل أفضل ، فهناك حاجة إلى نسبة متوازنة من البيانات ثنائية اللغة أو متعددة اللغات ، مثل Blooms و MindLLM-3B ، في بداية التدريب المسبق. علاوة على ذلك ، وجدنا أن MOSS-Base-16B و Chinese-LLaMA-2-7B لديهما نسبة معقولة من البيانات الصينية والإنجليزية ، ولا يزال المفرد لا يظهر محاذاة ثنائية الاتجاه ، وفرضيتنا هي أنه من الصعب إضافة قدرة محاذاة ثنائية اللغة أثناء التدريب على الهجرة ، لأن النموذج في هذا الوقت لديه بالفعل الكثير من المعرفة ، مما سيؤدي إلى تناقضات في حالة السعة الصغيرة. وهذا يفسر أيضا حقيقة أن MindLLM-1.3B ، التي لديها سعة أصغر وكمية صغيرة من البيانات في المرحلة المبكرة من التدريب أحادي اللغة ، لم تكتسب قدرات محاذاة ثنائية اللغة. من ناحية أخرى ، فإن Baichuan 2-7B جيد جدا في جوانب أخرى ، وقد يشغل سعة كبيرة ولا يمكنه تعلم محاذاة جيدة ثنائية الاتجاه.
(4) ملخص
من خلال تقييم نتائج مرحلة ما قبل التدريب ، لدينا الاستنتاجان التاليان:
تتمتع النماذج خفيفة الوزن بإمكانية كبيرة لتجاوز أو الوصول إلى مستوى النماذج الأكبر في مجال أو قدرة معينة.
بالنسبة للنموذج ذي السعة المحدودة (≤7B) ، يمكننا تخصيص نسبة البيانات بشكل معقول في بيانات ما قبل التدريب وفقا لمتطلبات القدرة المحددة لمهمة المصب ، والتي تساعد النموذج على التعلم والحصول على القدرة المستهدفة من الصفر ، ودمج وتعزيز المعرفة والقدرات المختلفة.
بالإضافة إلى ذلك ، تقارن الورقة أيضا تأثير الحفاظ على توزيع موحد للبيانات على أداء ما قبل التدريب للنموذج ، وتظهر النتائج التجريبية أن طريقة بناء البيانات لتعلم الدورة المماثلة قد تؤدي نفس طريقة النموذج الذي تم تدريبه في المرحلة المبكرة وطريقة بناء البيانات المختلطة بالتساوي ، ولكنها قد تؤدي في النهاية إلى نسيان كارثي وانخفاض مفاجئ في الأداء ، في حين أن أداء الأخير أكثر اتساقا واستقرارا ، ومعرفة بيانات ما قبل التدريب التي تم الحصول عليها أكثر شمولا ، مما يدعم أيضا الاستنتاج الثاني أعلاه. بالإضافة إلى ذلك ، نجد أن الطريقة التي يتم بها إنشاء البيانات في دورة مماثلة قد تنتج المزيد من توزيعات البيانات التي تفضي إلى تعزيز قدرة التعلم السياقي للنموذج. يمكن العثور على التفاصيل في القسم 4.5 من الورقة.
** تعليمات الضبط الدقيق **
نريد استكشاف كيفية أداء الضبط الدقيق للتعليمات على النماذج خفيفة الوزن مع أنواع مختلفة من مجموعات البيانات. الجدول التالي هو مجموعة بيانات الضبط الدقيق للتعليمات التي نستخدمها ، بما في ذلك مجموعة البيانات الصينية المعاد بناؤها MingLi ، ومجموعة البيانات العامة Tulu (الإنجليزية) ، ومجموعة البيانات ثنائية اللغة الصينية والإنجليزية MOSS.
** بالنسبة ل MindLLM ، فإن جودة البيانات الخاصة بضبط التعليمات أكثر أهمية من كمية البيانات. **
أداء نماذج MindLLM-1.3B و MindLLM-3B على C- بعد تعليمات الضبط الدقيق تحت بيانات مختلفة هو كما يلي. وفقا للنتائج التجريبية ، فإن أداء النموذج المدرب باستخدام مجموعة بيانات ضبط دقيقة للتعليمات تم اختيارها بعناية 50000 أعلى من أداء مجموعة بيانات الضبط الدقيق للتعليمات ذات التنوع العالي وحجم البيانات الكبير. وبالمثل ، أظهر النموذج نفس الأداء على المؤشر الإنجليزي MMLU (انظر الجدول 14 للحصول على التفاصيل). لذلك ، بالنسبة للنماذج خفيفة الوزن ، من المهم جدا تحديد وتصفية مجموعات بيانات الضبط الدقيق للتعليمات عالية الجودة.
** ضبط استراتيجية تصفية البيانات على أساس إنتروبيا البيانات **
كيف تحدد بيانات الضبط الدقيق للتعليم عالي الجودة؟ اقترح بعض العلماء أن تنوع بيانات الضبط الدقيق للتعليم يمكن أن يمثل جودة بيانات مجموعات بيانات الضبط الدقيق للتعليم. ومع ذلك ، وفقا لتجاربنا ، فإن إنتروبيا البيانات وطول البيانات لضبط التعليمات سيؤثر على أداء النماذج خفيفة الوزن أكثر. نحدد فقدان الإنتروبيا المتقاطعة لكل جزء من البيانات في النموذج المدرب مسبقا على أنه إنتروبيا البيانات للبيانات ، ونقوم بتجميع البيانات وفقا لإنتروبيا البيانات بواسطة خوارزمية K-Means للحصول على مجموعات بيانات مختلفة. تظهر نتائج MindLLM بعد ضبط تعليمات كل مجموعة بيانات ثم C- في الجدول التالي (انظر الجدول 19 للحصول على تفاصيل نتائج MMLU):
وفقا للنتائج الواردة في الجدول ، يختلف أداء MindLLM-1.3B و MindLLM-3B على مجموعات البيانات المختلفة اختلافا كبيرا. علاوة على ذلك ، نقوم بتحليل العلاقة بين إنتروبيا البيانات ودقة النموذج على C- و MMLU وتركيب الوظيفة ، كما هو موضح في الشكل:
نقطة الخماسي الأحمر في الصورة هي إنتروبيا النموذج المدرب مسبقا. وفقا للتحليل ، عندما تكون إنتروبيا البيانات أعلى بمقدار 1-1.5 من إنتروبيا النموذج المدرب مسبقا ، يكون للنموذج أفضل أداء بعد ضبط تعليمات البيانات في هذه الفترة. لذلك ، نحدد البيانات عالية الجودة من خلال إنتروبيا البيانات ونقترح طريقة لفحص البيانات عالية الجودة.
** يمكن ل MindLLM ضبط مجموعة البيانات من خلال تعليمات محددة للحصول على قدرات محددة **
من أجل استكشاف ما إذا كان بإمكان MindLLM تحسين قدراتها المحددة بشكل فعال من خلال ضبط التعليمات ، نستخدم جزء بيانات الاختبار من مجموعة البيانات المكونة من 10000 مجلد لضبط النموذج ، من أجل تعزيز قدرة معرفة الموضوع للنموذج. أجرينا تقييما على C- ، وكانت النتائج كما يلي:
يمكن ملاحظة أنه بعد ضبط التعليمات ، قام النموذج بتحسين قدرته على معرفة الموضوع بشكل كبير ، كما أن أداء 1.3B MindLLM يتجاوز أداء الطرز الأكبر مثل ChatGLM-6B و Chinese-Alpaca-33B. لذلك ، نعتقد أن MindLLM يمكنه تحسين قدراته المحددة بعد تعليمات الضبط الدقيق ، وبسبب خصائصه خفيفة الوزن ، فهو أكثر ملاءمة للنشر في المهام الرأسية النهائية.
التطبيق الميداني
من أجل إثبات تأثير تطبيق النماذج الصغيرة في مجالات محددة ، نستخدم مجموعتي بيانات عامتين في التمويل والقانون للتحقق منها. من النتائج ، يمكن ملاحظة أن حجم المعلمة للنموذج له تأثير معين على أداء المجال ، لكن الأداء ليس واضحا. يتفوق أداء MindLLM على النماذج الأخرى ذات الحجم المماثل في التطبيق الميداني ويمكن مقارنته بالنماذج الأكبر. كما يثبت أن النموذج الصغير لديه إمكانات كبيرة في مجال التطبيق.
القطاع المالي
في هذا المجال ، يتم تنفيذ مهمة تصنيف إدراك العاطفة على البيانات المالية. أولا، زحفنا إلى البيانات من 13 مايو 2011 إلى 31 أغسطس 2023 من أورينتال فورتشن ووضعنا علامات على البيانات بناء على تقلبات أسعار الأسهم التالية. بعد ذلك ، يتم تقسيم البيانات إلى مجموعات تدريب واختبار حسب التاريخ. بالنظر إلى اختلال التوازن في الفئات ، قمنا بأخذ عينات من البيانات وانتهى بنا الأمر باستخدام 320,000 قطعة من البيانات كمجموعة تدريب و 20,000 قطعة من البيانات كمجموعة اختبار.
استخدمنا طريقتين تدريبيتين مختلفتين لمقارنة أداء النماذج المختلفة. أولا ، يتم استخدام الضبط الدقيق البسيط الخاضع للإشراف (SFT) فقط لتصنيف النص. ثانيا ، تم تقطير بيانات عملية الاستدلال من ChatGPT وإضافتها إلى التدريب كبيانات مساعدة ، باستخدام طريقة تدريب COT (سلسلة الفكر).
تظهر النتائج التجريبية أنه يمكن تحسين تأثير جميع نماذج خط الأساس ونماذج MindLLM بدرجات متفاوتة عن طريق استكمال المعلومات المساعدة. يمكن ملاحظة أن أداء MindLLM-1.3B و 3B قد تحسن بنسبة 27.81٪ و 26.28٪ على التوالي مقارنة بأداء تدريب SFT من خلال تدريب COT ، وتم تحسين MindLLM بشكل ملحوظ أكثر من النماذج الأخرى باستثناء Baichuan-7B. بالإضافة إلى ذلك ، يحقق MindLLM-1.3B و 3B أفضل أداء على نفس النطاق ويتفوقان على ChatGLM2-6B و Open-LLaMA-7B.
المجال القانوني
لقد جمعنا بعض البيانات القانونية المتاحة للجمهور ودمجناها مع بعض البيانات التوجيهية العامة لضبط التوجيه (SFT) ل MindLLM. من أجل استكشاف كيفية تأثير طول الرمز المميز للبيانات على أداء النموذج على مجالات محددة ، نستخدم بيانات بأطوال بيانات مختلفة لتدريب MindLLM بشكل منفصل. قمنا أولا بفحص جميع البيانات بطول أقل من 450 ، ثم استخدمنا الرموز المميزة MindLLM-1.3B و MindLLM-3B لتصفية البيانات بين 200-300 و 300-450 ، على التوالي. يسرد الجدول التالي الإحصاءات ونماذج التدريب المقابلة:
من أجل تجنب الأخطاء الناجمة عن التحيز ونقص الخبرة في التقييم البشري ، نستخدم ChatGPT كمقيم بالطرق التالية. مجموعة بيانات من جولات متعددة من محادثات الاستشارات القانونية التي تم إنشاؤها بواسطة ChatGPT ، تم استخراج 100 منها كبيانات التقييم الخاصة بنا. نستخدم ChatGPT لتقييم استجابات النموذج للمشورة القانونية ، والسماح ل ChatGPT بترتيب استجابات النموذج ، ثم حساب درجة Elo بناء على نتائج الترتيب. أخيرا ، تم اختيار أحد أفضل النماذج لمقارنة MindLLM-Law مع نماذج أخرى مفتوحة المصدر.
بالنسبة ل Bloom ، تم ضبط نماذج GPT-Neo و Open-LLaMA باستخدام نفس مجموعة البيانات مثل MindLLM-Law ، وكانت نتائج المقارنة كما يلي:
تظهر النتائج أن MindLLM-Law لم يتجاوز النموذج مع معلمات 13B و ChatGLM2-6B ، ويرجع ذلك أساسا إلى نقص البيانات في مرحلة ما قبل التدريب للقانون لتحقيق مكاسب أكبر. ومع ذلك ، تتمتع MindLLM بمزايا عامة واضحة على Baichuan2-7B-Chat ، و Open-LLaMA-7B المضبوط بدقة ، ونماذج أخرى من نفس الحجم.
ملخص
تقدم هذه المقالة عائلة نماذج MindLLM ، والتي تتضمن حاليا نموذجين لغويين كبيرين خفيفي الوزن. ناقشنا عملية التدريب الخاصة بهم بالتفصيل ، بما في ذلك معالجة البيانات ، والتدريب المسبق ، والضبط الدقيق ، وتطبيقات المجال ، وتبادلنا الخبرات القيمة والتطبيقات التقنية المتراكمة في هذه المجالات. على الرغم من حجم المعلمات الصغير نسبيا ، فقد كان أداء MindLLMs جيدا في اختبارات الأداء المتعددة ، حتى أنه تفوق على بعض النماذج الأكبر في بعض النواحي. يعرض MindLLM أداء فائقا على النماذج خفيفة الوزن الأخرى من حيث تكييف المجال. في الوقت نفسه ، يمكنهم تحقيق نتائج قابلة للمقارنة بسرعة تدريب أسرع وموارد تدريب أقل من النماذج الأكبر. بناء على التحليل أعلاه ، نعتقد أن النماذج الصغيرة لا تزال تتمتع بإمكانات كبيرة. سنقوم بتحسين جودة البيانات بشكل أكبر ، وتحسين عملية تدريب النموذج ، وتوسيع نطاق النموذج لتحسين أداء MindLLM بطريقة متعددة الأبعاد. في المستقبل ، نخطط لتجربة المزيد من المهام النهائية والمجالات المحددة لتحقيق تطبيقات محددة أكثر تعمقا للنماذج الكبيرة خفيفة الوزن.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
كيف يمكن مقارنة النموذج الصغير بالنموذج الكبير ، أصدر معهد بكين للتكنولوجيا نموذج Mingde الكبير MindLLM ، والنموذج الصغير لديه إمكانات كبيرة
المصدر الأصلي: قلب الآلة
أظهرت نماذج اللغة الكبيرة (LLMs) أداء ممتازا في مجموعة متنوعة من مهام اللغة الطبيعية ، ولكن لا تزال هناك العديد من المشكلات العملية في تطبيق نماذج اللغة الكبيرة في المجال المهني بسبب التكلفة العالية للتدريب واستنتاج نماذج المعلمات الكبيرة. لذلك ، بدأ الفريق بنماذج خفيفة الوزن لزيادة مزايا البيانات والنماذج إلى أقصى حد ، بناء على خدمة مجالات محددة بشكل أفضل ، وتقليل تكاليف التدريب والاستدلال للمهام النهائية.
في 24 أكتوبر ، أصدر فريق معالجة اللغة الطبيعية في معهد بكين للتكنولوجيا سلسلة من نماذج اللغات الكبيرة خفيفة الوزن ثنائية اللغة (Min**g D ** e LLM) - MindLLM ، والتي تقدم بشكل شامل الخبرة المتراكمة في عملية تطوير النموذج على نطاق واسع ، والتي تغطي كل خطوة مفصلة من بناء البيانات ، وهندسة النموذج ، والتقييم وعملية التطبيق. يتم تدريب MindLLM من الألف إلى الياء ويأتي في الإصدارات 1.3B و 3B ، ويطابق باستمرار أو يتفوق على أداء النماذج الكبيرة الأخرى مفتوحة المصدر في بعض المعايير العامة. كما تعزز MindLLM قدراتها من خلال تقديم إطار ضبط تعليمي مبتكر مصمم خصيصا للنماذج الأصغر. بالإضافة إلى ذلك ، بالنسبة للتطبيقات في قطاعات محددة مثل القانون والتمويل ، تتمتع MindLLM أيضا بقدرة ممتازة على التكيف مع المجال.
** يسلط الضوء على MindLLM **
** البيانات ذات الصلة **
معالجة البيانات
نحن نستخدم بيانات التدريب باللغتين الإنجليزية والصينية. تم اشتقاق البيانات الإنجليزية من مجموعة بيانات Pile وتمت معالجتها بشكل أكبر. تتضمن البيانات الصينية بيانات التدريب من مصادر مفتوحة مثل Wudao و CBooks ، بالإضافة إلى البيانات التي نزحف إليها من الإنترنت. لضمان جودة البيانات ، نستخدم طرقا صارمة لمعالجة البيانات ، خاصة للبيانات التي يتم الزحف إليها من الويب.
يتضمن نهجنا في معالجة البيانات ما يلي:
في النهاية حصلنا على البيانات التالية:
قانون التحجيم
لضمان الأداء الأمثل في مواجهة زيادة تكاليف التدريب للتعلم العميق ونماذج اللغات الكبيرة ، أجرينا دراسة للعلاقة بين حجم البيانات وسعة النموذج ، والمعروفة باسم قانون التحجيم. قبل أن نشرع في تدريب نموذج لغوي كبير بمليارات المعلمات ، نقوم أولا بتدريب نموذج أصغر لإنشاء نمط تحجيم لتدريب نموذج أكبر. تتراوح أحجام نماذجنا من 10 ملايين إلى 500 مليون معلمة ، ويتم تدريب كل نموذج على مجموعة بيانات تحتوي على ما يصل إلى 10 مليارات رمز. تستخدم هذه التدريبات إعدادات المعلمات الفائقة المتسقة ، بالإضافة إلى نفس مجموعة البيانات كما ذكرنا سابقا. من خلال تحليل الخسارة النهائية للنماذج المختلفة ، تمكنا من إنشاء رسم خرائط من تدريب FLOP (عملية النقطة العائمة) إلى الخسارة. كما هو موضح في الشكل أدناه ، تختلف كمية بيانات التدريب المشبعة بنماذج ذات أحجام مختلفة ، ومع زيادة حجم النموذج ، تزداد أيضا بيانات التدريب المطلوبة. من أجل تلبية متطلبات البيانات الدقيقة للنموذج المستهدف ، استخدمنا صيغة قانون الطاقة لتناسب قانون التوسع للنموذج ، وتوقعنا كمية بيانات التدريب وقيمة الخسارة لنموذج المعلمة 3B ، وقارنناها بالنتائج الفعلية (النجوم في الشكل).
دورة اختلاط البيانات والبيانات
يغطي تأثير البيانات على النموذج بشكل رئيسي جانبين: (1) نسبة الخلط ، والتي تنطوي على كيفية دمج البيانات من مصادر مختلفة لبناء مجموعة بيانات ذات حجم معين بميزانية تدريب محدودة. و (2) دورات البيانات ، والتي تتعامل مع ترتيب البيانات من مصادر مختلفة لتدريب المهارات الخاصة بالنموذج.
قمنا بتقليص كل مصدر بيانات لتدريب نموذج بمعلمات 15M. كما هو موضح في الشكل أدناه ، فإن الأنواع المختلفة من البيانات لها تأثيرات مختلفة على كفاءة التعلم والنتيجة النهائية للنموذج. على سبيل المثال ، تحتوي مشكلة الرياضيات على خسارة نهائية أقل للبيانات وأسرع في التعلم ، مما يشير إلى أن لها نمطا أكثر وضوحا ويسهل تعلمها. في المقابل ، تستغرق البيانات من الكتب الإعلامية أو نصوص الويب المتنوعة وقتا أطول للتكيف. قد تكون بعض مجالات البيانات المماثلة أقرب من حيث الخسائر ، مثل البيانات والموسوعات المتعلقة بالتكنولوجيا.
بالإضافة إلى ذلك، أجرينا تعديلات متعددة على مقياس البيانات لتحقيق التوازن بين أداء النموذج عبر مختلف المهارات وأنواع البيانات. بناء على تجاربنا ، انتهينا من بعض المبادئ لنسب خلط البيانات:
بالإضافة إلى نسبة المزيج ، تؤثر دورة البيانات (الترتيب الذي يتم به تدريب البيانات) أيضا على قدرة النموذج على التعلم. أظهرت التجارب أن البيانات من مصادر مختلفة ستجعل النموذج يتعلم مهارات مختلفة ، وأن اعتماد نظام تعلم معين قد يساعد النموذج على تعلم مهارات جديدة بسبب الارتباط بين المهارات. تركز تجاربنا على تأثير البيانات المختلطة غير الموحدة وتعلم نقل اللغة على قدرات النموذج. تظهر تجاربنا أن البيانات المختلطة غير المتجانسة تؤدي إلى التدريب المستمر للنموذج على نفس النوع من البيانات ، وهو أقرب إلى سياق التعلم في السياق ، وبالتالي يؤدي أداء أفضل في التعلم قليل الطلقات. ومع ذلك ، بسبب عدم تكافؤ التعلم ، قد تكون هناك ظاهرة ملحوظة للنسيان في المراحل اللاحقة. بالإضافة إلى ذلك ، يساعد تعلم نقل اللغة النموذج على اكتساب القدرة ثنائية اللغة ، ويمكن تحسين الأداء العام من خلال محاذاة اللغة ، لكننا نعتقد أن التدريب باستخدام بيانات اللغة المختلطة يفضي أكثر إلى تخصيص واكتساب قدرة النموذج.
** بنية نموذج MindLLMs **
يستخدم MindLLM-1.3B نفس بنية النموذج مثل GPTNeo-1.3B ، بينما يضيف MindLLM-3B بعض التحسينات فوقه. استنادا إلى استقرار التدريب وقدرات النموذج ، نستخدم ترميز الموضع الدوار (RoPE) DeepNorm و RMS Norm و FlashAttention-2 و GeGLU ومشغلي التحسين الآخرين.
أضفنا مفردات صينية على أساس GPTNeo-1.3B واستخدمنا استراتيجيات التعلم التحويلي لتدريب القدرة ثنائية اللغة ل MindLLM-1.3B. بالنسبة إلى MindLLM-3B ، نستخدم BPE من SentencePiece لترميز البيانات ، ويبلغ حجم المفردات النهائية ل Tokenizer الخاص بنا 125,700. من خلال طريقتين مختلفتين للتدريب ثنائي اللغة ، قمنا بتلخيص بعض الأساليب الشائعة والعملية لما قبل التدريب.
** ما قبل التدريب **
تفاصيل ما قبل التدريب
استخدمنا استراتيجيتين مختلفتين لتدريب النموذج ثنائي اللغة MindLLM de novo. بالنسبة ل MindLLM-3B ، قمنا بتدريب 800،00 خطوة مباشرة على بيانات ثنائية اللغة مختلطة باللغتين الصينية والإنجليزية أثناء تعلم إتقان اللغة الصينية والإنجليزية. بالنسبة إلى MindLLM-1.3B ، قمنا أولا بتدريب 101,100 خطوة مسبقا على مجموعة البيانات الإنجليزية ثم قمنا بتدريب 105,900 خطوة باستخدام بيانات مختلطة باللغتين الصينية والإنجليزية. تفاصيل ما قبل التدريب هي كما يلي:
نموذج أصغر يمكن أن يتفوق على نموذج أكبر
لتقييم قدرة النموذج الصينية والإنجليزية ، استخدمنا MMLU (5 طلقات) و AGI (4 طلقات) لتقييم قدرة النموذج على اللغة الإنجليزية ، و C- (5 طلقات) و CMMLU (4 طلقات) لتقييم القدرة الصينية للنموذج. يستخدم AGI جزءا متعدد الخيارات من الجزء الإنجليزي. نتائج التقييم هي كما يلي:
بالإضافة إلى ذلك ، وجدنا أن MindLLM-1.3B ، الذي تم تدريبه على كل من البيانات الصينية والإنجليزية ، تفوق على GPT-Neo-1.3B على MMLU ، مما يشير إلى أن هذا قد يكون مكسبا من التعلم ثنائي اللغة ، حيث توجد أوجه تشابه بين اللغات المختلفة من حيث القدرات. يمكن العثور على التجارب والتحليلات التفصيلية في القسم 4.4 من الورقة.
النماذج الأصغر لديها إمكانات كبيرة من حيث القدرات المحددة
بالنسبة للنماذج خفيفة الوزن ، عند تطبيقها على المهام النهائية ، يكفي فقط وجود القدرات ذات الصلة. لذلك ، في هذا القسم ، نريد استكشاف الأداء والعوامل المؤثرة ل MindLLMs وغيرها من LLMs خفيفة الوزن في (≤7B) قدرات محددة.
نقوم بتقييم أداء النماذج المختلفة بشكل أساسي من ثلاث وجهات نظر: القدرة الرياضية ، والقدرة على التفكير ، والقدرة على المحاذاة ثنائية اللغة ، لأن هذه القدرات الثلاث معقدة ومهمة نسبيا لتطبيق النماذج ثنائية اللغة.
(1) الرياضيات **
استخدمنا مجموعة البيانات الحسابية (5 طلقات) لتقييم القدرة الحسابية للنموذج ، و GSM8K (4 لقطات) والرياضيات (4 لقطات) لتقييم القدرة الرياضية العامة للنموذج. نتائج التقييم هي كما يلي:
** (2) الاستدلال**
استخدمنا HellaSwag و WinoGrande لتقييم قدرة الاستدلال اللغوي للنموذج (5 طلقات) ، LogiQA لتقييم قدرة التفكير المنطقي للنموذج (5 طلقات) ، PubMedQA و PIQA و MathQA لتقييم قدرة الاستدلال المعرفي للنموذج (5 طلقات) ، و BBH لتقييم قدرة الاستدلال الشامل للنموذج (3 طلقات). نتائج التقييم المحددة هي كما يلي:
** (3) ثنائية اللغة**
استخدمنا قسم zh-en من Flores-101 (8 طلقات) لتقييم محاذاة النماذج ثنائية اللغة أو متعددة اللغات باللغتين الصينية والإنجليزية. قمنا بتضمين Chinese-LLaMA-2-7B ، وهو نموذج للتكيف مع المجال الصيني يعتمد على LLaMA-2-7B. النتائج هي كما يلي:
لذلك ، لدينا استنتاجان ، أحدهما هو أن النموذج يمكنه تعلم تمثيل اللغة من خلال قدر كبير من التدريب على لغة واحدة ، وفي نفس الوقت يمكن فهمه ومحاذاة أحادي الاتجاه عن طريق الاختلاط في عدد صغير من اللغات الأخرى ، مثل أداء LLaMA-7B و Open-LLaMA-7B. والثاني هو أنه إذا كانت هناك حاجة إلى مواءمة ثنائية اللغة أو متعددة اللغات بشكل أفضل ، فهناك حاجة إلى نسبة متوازنة من البيانات ثنائية اللغة أو متعددة اللغات ، مثل Blooms و MindLLM-3B ، في بداية التدريب المسبق. علاوة على ذلك ، وجدنا أن MOSS-Base-16B و Chinese-LLaMA-2-7B لديهما نسبة معقولة من البيانات الصينية والإنجليزية ، ولا يزال المفرد لا يظهر محاذاة ثنائية الاتجاه ، وفرضيتنا هي أنه من الصعب إضافة قدرة محاذاة ثنائية اللغة أثناء التدريب على الهجرة ، لأن النموذج في هذا الوقت لديه بالفعل الكثير من المعرفة ، مما سيؤدي إلى تناقضات في حالة السعة الصغيرة. وهذا يفسر أيضا حقيقة أن MindLLM-1.3B ، التي لديها سعة أصغر وكمية صغيرة من البيانات في المرحلة المبكرة من التدريب أحادي اللغة ، لم تكتسب قدرات محاذاة ثنائية اللغة. من ناحية أخرى ، فإن Baichuan 2-7B جيد جدا في جوانب أخرى ، وقد يشغل سعة كبيرة ولا يمكنه تعلم محاذاة جيدة ثنائية الاتجاه.
(4) ملخص
من خلال تقييم نتائج مرحلة ما قبل التدريب ، لدينا الاستنتاجان التاليان:
بالإضافة إلى ذلك ، تقارن الورقة أيضا تأثير الحفاظ على توزيع موحد للبيانات على أداء ما قبل التدريب للنموذج ، وتظهر النتائج التجريبية أن طريقة بناء البيانات لتعلم الدورة المماثلة قد تؤدي نفس طريقة النموذج الذي تم تدريبه في المرحلة المبكرة وطريقة بناء البيانات المختلطة بالتساوي ، ولكنها قد تؤدي في النهاية إلى نسيان كارثي وانخفاض مفاجئ في الأداء ، في حين أن أداء الأخير أكثر اتساقا واستقرارا ، ومعرفة بيانات ما قبل التدريب التي تم الحصول عليها أكثر شمولا ، مما يدعم أيضا الاستنتاج الثاني أعلاه. بالإضافة إلى ذلك ، نجد أن الطريقة التي يتم بها إنشاء البيانات في دورة مماثلة قد تنتج المزيد من توزيعات البيانات التي تفضي إلى تعزيز قدرة التعلم السياقي للنموذج. يمكن العثور على التفاصيل في القسم 4.5 من الورقة.
** تعليمات الضبط الدقيق **
نريد استكشاف كيفية أداء الضبط الدقيق للتعليمات على النماذج خفيفة الوزن مع أنواع مختلفة من مجموعات البيانات. الجدول التالي هو مجموعة بيانات الضبط الدقيق للتعليمات التي نستخدمها ، بما في ذلك مجموعة البيانات الصينية المعاد بناؤها MingLi ، ومجموعة البيانات العامة Tulu (الإنجليزية) ، ومجموعة البيانات ثنائية اللغة الصينية والإنجليزية MOSS.
أداء نماذج MindLLM-1.3B و MindLLM-3B على C- بعد تعليمات الضبط الدقيق تحت بيانات مختلفة هو كما يلي. وفقا للنتائج التجريبية ، فإن أداء النموذج المدرب باستخدام مجموعة بيانات ضبط دقيقة للتعليمات تم اختيارها بعناية 50000 أعلى من أداء مجموعة بيانات الضبط الدقيق للتعليمات ذات التنوع العالي وحجم البيانات الكبير. وبالمثل ، أظهر النموذج نفس الأداء على المؤشر الإنجليزي MMLU (انظر الجدول 14 للحصول على التفاصيل). لذلك ، بالنسبة للنماذج خفيفة الوزن ، من المهم جدا تحديد وتصفية مجموعات بيانات الضبط الدقيق للتعليمات عالية الجودة.
كيف تحدد بيانات الضبط الدقيق للتعليم عالي الجودة؟ اقترح بعض العلماء أن تنوع بيانات الضبط الدقيق للتعليم يمكن أن يمثل جودة بيانات مجموعات بيانات الضبط الدقيق للتعليم. ومع ذلك ، وفقا لتجاربنا ، فإن إنتروبيا البيانات وطول البيانات لضبط التعليمات سيؤثر على أداء النماذج خفيفة الوزن أكثر. نحدد فقدان الإنتروبيا المتقاطعة لكل جزء من البيانات في النموذج المدرب مسبقا على أنه إنتروبيا البيانات للبيانات ، ونقوم بتجميع البيانات وفقا لإنتروبيا البيانات بواسطة خوارزمية K-Means للحصول على مجموعات بيانات مختلفة. تظهر نتائج MindLLM بعد ضبط تعليمات كل مجموعة بيانات ثم C- في الجدول التالي (انظر الجدول 19 للحصول على تفاصيل نتائج MMLU):
** يمكن ل MindLLM ضبط مجموعة البيانات من خلال تعليمات محددة للحصول على قدرات محددة **
من أجل استكشاف ما إذا كان بإمكان MindLLM تحسين قدراتها المحددة بشكل فعال من خلال ضبط التعليمات ، نستخدم جزء بيانات الاختبار من مجموعة البيانات المكونة من 10000 مجلد لضبط النموذج ، من أجل تعزيز قدرة معرفة الموضوع للنموذج. أجرينا تقييما على C- ، وكانت النتائج كما يلي:
التطبيق الميداني
من أجل إثبات تأثير تطبيق النماذج الصغيرة في مجالات محددة ، نستخدم مجموعتي بيانات عامتين في التمويل والقانون للتحقق منها. من النتائج ، يمكن ملاحظة أن حجم المعلمة للنموذج له تأثير معين على أداء المجال ، لكن الأداء ليس واضحا. يتفوق أداء MindLLM على النماذج الأخرى ذات الحجم المماثل في التطبيق الميداني ويمكن مقارنته بالنماذج الأكبر. كما يثبت أن النموذج الصغير لديه إمكانات كبيرة في مجال التطبيق.
القطاع المالي
في هذا المجال ، يتم تنفيذ مهمة تصنيف إدراك العاطفة على البيانات المالية. أولا، زحفنا إلى البيانات من 13 مايو 2011 إلى 31 أغسطس 2023 من أورينتال فورتشن ووضعنا علامات على البيانات بناء على تقلبات أسعار الأسهم التالية. بعد ذلك ، يتم تقسيم البيانات إلى مجموعات تدريب واختبار حسب التاريخ. بالنظر إلى اختلال التوازن في الفئات ، قمنا بأخذ عينات من البيانات وانتهى بنا الأمر باستخدام 320,000 قطعة من البيانات كمجموعة تدريب و 20,000 قطعة من البيانات كمجموعة اختبار.
المجال القانوني
لقد جمعنا بعض البيانات القانونية المتاحة للجمهور ودمجناها مع بعض البيانات التوجيهية العامة لضبط التوجيه (SFT) ل MindLLM. من أجل استكشاف كيفية تأثير طول الرمز المميز للبيانات على أداء النموذج على مجالات محددة ، نستخدم بيانات بأطوال بيانات مختلفة لتدريب MindLLM بشكل منفصل. قمنا أولا بفحص جميع البيانات بطول أقل من 450 ، ثم استخدمنا الرموز المميزة MindLLM-1.3B و MindLLM-3B لتصفية البيانات بين 200-300 و 300-450 ، على التوالي. يسرد الجدول التالي الإحصاءات ونماذج التدريب المقابلة:
بالنسبة ل Bloom ، تم ضبط نماذج GPT-Neo و Open-LLaMA باستخدام نفس مجموعة البيانات مثل MindLLM-Law ، وكانت نتائج المقارنة كما يلي:
ملخص
تقدم هذه المقالة عائلة نماذج MindLLM ، والتي تتضمن حاليا نموذجين لغويين كبيرين خفيفي الوزن. ناقشنا عملية التدريب الخاصة بهم بالتفصيل ، بما في ذلك معالجة البيانات ، والتدريب المسبق ، والضبط الدقيق ، وتطبيقات المجال ، وتبادلنا الخبرات القيمة والتطبيقات التقنية المتراكمة في هذه المجالات. على الرغم من حجم المعلمات الصغير نسبيا ، فقد كان أداء MindLLMs جيدا في اختبارات الأداء المتعددة ، حتى أنه تفوق على بعض النماذج الأكبر في بعض النواحي. يعرض MindLLM أداء فائقا على النماذج خفيفة الوزن الأخرى من حيث تكييف المجال. في الوقت نفسه ، يمكنهم تحقيق نتائج قابلة للمقارنة بسرعة تدريب أسرع وموارد تدريب أقل من النماذج الأكبر. بناء على التحليل أعلاه ، نعتقد أن النماذج الصغيرة لا تزال تتمتع بإمكانات كبيرة. سنقوم بتحسين جودة البيانات بشكل أكبر ، وتحسين عملية تدريب النموذج ، وتوسيع نطاق النموذج لتحسين أداء MindLLM بطريقة متعددة الأبعاد. في المستقبل ، نخطط لتجربة المزيد من المهام النهائية والمجالات المحددة لتحقيق تطبيقات محددة أكثر تعمقا للنماذج الكبيرة خفيفة الوزن.