تتطور الألبكة إلى حيتان ، وتقوم Meta "بأتمتة" المحاذاة ، وتتفوق Humpback على جميع نماذج LLaMa الحالية

2023-08-15 05:46:13

** المحررون: Xiaozhou ، Chen Ping **

** المصدر: ** قلب الآلة

في العام الماضي ، تطور نموذج اللغة الكبير (LLM) الذي يمثله ChatGPT و GPT-4 سريعًا ، تلاه طرازات سلسلة Meta مفتوحة المصدر LLaMa و Llama 2 ، والتي أحدثت أيضًا ضجة كبيرة في عالم الذكاء الاصطناعي . ولكن ما تبع ذلك كان جدلًا مستمرًا ، حيث اعتقد بعض الناس أن LLM لديها بعض المخاطر التي لا يمكن السيطرة عليها ، مما يشكل بعض التهديدات المحتملة على بقاء الإنسان.

من أجل التعامل مع هذه التحديات ، أصبح البحث حول محاذاة LLM أكثر أهمية.اقترح بعض الباحثين اتباع التعليمات (التعليمات التالية) ، لكن هذه الطريقة تتطلب الكثير من التعليقات التوضيحية اليدوية. ومع ذلك ، فإن التعليق التوضيحي لمجموعات البيانات عالية الجودة التي تتبع التعليمات أمر مكلف.

في هذه الورقة ، اقترح باحثون من ** Meta AI طريقة قابلة للتطوير تسمى الترجمة العكسية للتعليمات ** ، والتي تبني نموذج لغة عالي الجودة يتبع التعليمات عن طريق التعليق تلقائيًا على التعليمات المقابلة.

عنوان الورق:

على وجه التحديد ، تبدأ الدراسة بنموذج اللغة كنموذج أولي ، والذي تم ضبطه بدقة على كمية صغيرة من البيانات الأولية بالإضافة إلى مجموعة الويب. يتمثل دور نموذج البذور في بناء عينات تدريبية ، ثم يتم فحص بعض العينات عالية الجودة من هذه العينات ، ثم يتم استخدام هذه البيانات لضبط نموذج أكثر قوة.

بعد جولتين من الضبط الدقيق لمجموعة البيانات التكرارية LLaMa ، يتفوق الطراز Humpback الناتج على النماذج الأخرى غير المقطرة الحالية مثل LIMA و Claude و Guanaco وما إلى ذلك على لوحة المتصدرين Alpaca.

في الأصل تعني الحوت الأحدب الحوت الأحدب ، المعروف أيضًا باسم الحوت الأحدب. أطلق ميتا على النموذج الأحدب ، لذلك لا يوجد معنى عميق.

قال الباحثون إن سبب تسميتها بالترجمة العكسية للتعليمات يستند إلى طريقة الترجمة الخلفية الكلاسيكية في الترجمة الآلية ، حيث يتم التعليق تلقائيًا على الجملة المستهدفة التي يكتبها البشر مع الجملة المصدر بلغة أخرى تم إنشاؤها بواسطة النموذج. .

قدم Yann LeCun الحائز على جائزة تورينج لمحة عامة رفيعة المستوى عن منهجية الدراسة وأشاد بعمل Meta باعتباره مساهمة مهمة في محاذاة البحث:

قدم بعض مستخدمي الإنترنت ملخصًا جيدًا لهذا البحث: جودة البيانات مهمة حقًا للنماذج الكبيرة. أثناء عملية البحث ، استخدموا مستويات مختلفة من البيانات المصفاة لضبط النموذج. وأظهرت النتائج أن أفضل العينات فقط من أجل الحصول على نموذج يعمل بشكل أفضل من العينات الأخرى.

تقترح هذه الورقة نموذجًا جديدًا لزيادة البيانات يجب إكماله في خطوتين. أولاً ، من الضروري أن يكون لديك مجموعة من أزواج البذور (تعليمات ، مخرجات) ومجموعة أساسية لتوليد المزيد من بيانات التعليمات الجيدة.

الشكل أدناه يقارن الحدباء ببعض النماذج مفتوحة المصدر ونماذج الملكية.

يوضح الجدول 4 أدناه أن طريقتنا تعمل بشكل أفضل بين الطرز غير المقطرة على كلا المقياسين النموذجيين 65B و 33B.

دعونا نلقي نظرة على الطريقة المحددة أدناه.

مقدمة عن الطريقة

تقترح الدراسة نهجًا للتدريب الذاتي يفترض عمومًا الوصول إلى نموذج لغة أساسي ، وكمية صغيرة من البيانات الأولية ، ومجموعة عينة غير مصنفة (مثل مجموعة الويب). غالبًا ما تكون البيانات غير المصنفة عبارة عن مجموعة كبيرة من المستندات ذات الأشكال المختلفة ، والتي كتبها البشر ، بما في ذلك محتوى حول مواضيع مختلفة تهم الإنسان ، ولكن الأهم من ذلك ، لم يتم إقرانها بالتعليمات.

يوجد افتراضان رئيسيان هنا: الافتراض الأول هو أن هناك بعض المجموعات الفرعية من هذه المجموعة النصية الكبيرة جدًا (مجموعة عينات غير مسماة) مناسبة كعينات تم إنشاؤها لبعض تعليمات المستخدم. الفرضية الثانية هي أنه يمكن التنبؤ بإرشادات هذه الإجابات المرشحة ، والتي يمكن استخدامها لتكوين أزواج عينات عالية الجودة لتدريب نماذج تتبع التعليمات.

كما هو موضح في الشكل 1 أدناه ، تقترح الدراسة أن عملية الترجمة الخلفية للإرشادات تتضمن خطوتين أساسيتين:

التعزيز الذاتي: إنشاء تعليمات للبيانات غير المسماة (أي مجموعة الويب) لإنشاء أزواج بيانات التدريب (مخرجات التعليمات) لضبط التعليمات.
الإدارة الذاتية: حدد بشكل مستقل بيانات عينة عالية الجودة كبيانات تدريب لضبط النموذج الأساسي لاتباع التعليمات ، ويتم تنفيذ هذه الطريقة بشكل متكرر.

من بينها ، خطوات الإدارة الذاتية المعتمدة موضحة في الجدول 1 أدناه:

التجربة والنتائج

تتضمن مجموعة البيانات في هذه الورقة بشكل أساسي بيانات البذور والبيانات المحسّنة. وترد المعلومات المحددة في الجدول 2 والشكل 2:

يوضح الشكل 3 أن البيانات المعززة بدون المعالجة الذاتية المستخدمة لتدريب النموذج لا تحسن التعليمات التالية للأداء على الرغم من زيادة حجم البيانات.

يقارن الشكل أدناه كفاءة البيانات لمجموعات بيانات ضبط التعليمات المختلفة.

التوسع المشترك للبيانات والنماذج: وجدت الدراسة أن اتجاهات التوسع في البيانات التي لوحظت في نموذج 7B تنطبق أيضًا على النماذج الأكبر. على سبيل المثال ، ستؤدي إضافة بيانات التعزيز عالية الجودة إلى نموذج البذور 65B إلى مزيد من التحسينات.

التفكير المنطقي: تم اختبار الدراسة على خمسة معايير منطقية للاستدلال ، SIQA ، PIQA ، Arc-Easy ، Arc-Challenge و Openbook QA (OBQA) ، وتم تلخيص النتائج في الجدول 5. أظهرت النتائج أنه مقارنة بالنموذج الأساسي ، فقد تم تحسين أداء نموذجنا في العديد من الجوانب مثل التفكير الاجتماعي.

MMLU: يلخص الجدول 6 نتائج النماذج المختلفة في MMLU (فهم هائل للغة متعددة المهام). يعمل نموذجنا الدقيق على تحسين دقة اللقطة الصفرية مقارنة بالنموذج الأساسي ، ولكنه يعمل بشكل ضعيف في مثال السياق المكون من 5 عينات.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1