وحدات البايت "تفتح" جميع نماذج OpenAI الكبيرة ، وتكشف عن مسار التطور من GPT-3 إلى GPT-4! فجر لي مو بها

مصدر المقال: الكيوبتات

كيف تطور GPT-3 بالضبط إلى GPT-4؟

أعطى بايت OpenAI جميع النماذج الكبيرة عملية "unboxing".

لقد اكتشفت النتائج حقا الدور المحدد وتأثير بعض التقنيات الرئيسية على تطور GPT-4.

مثل ماذا:

  • كان SFT هو عامل التمكين لتطور GPT المبكر
  • أكبر المساهمين في قدرات ترميز GPT هم SFT و RLHF
  • تؤدي إضافة بيانات الكود إلى التدريب المسبق إلى تحسين قدرة إصدارات GPT اللاحقة في ** جميع الجوانب ** ، وخاصة الاستدلال ...

بعد بدء عمل تجاري ، ظهر الثور ** الذكاء الاصطناعي Li Mu ** ، الذي كان مشغولا للغاية ، في نظر الجمهور بعد وقت طويل وأشاد بهذا البحث.

حتى أن مستخدمي الإنترنت أشادوا:

هذا هو العمل الأول حتى الآن الذي يفتح بالكامل جميع نماذج OpenAI ، والاحترام.

بالإضافة إلى بعض الاكتشافات الجديدة ، فإنه يؤكد أيضا بعض التخمينات الحالية:

على سبيل المثال ، GPT-4 ليس مثيرا للقلق بشأن أن يصبح غبيا ، وقد وجد هذا التقييم أن هناك "ظاهرة متأرجحة" واضحة على طريق تطور GPT ، أي أن بعض القدرات تزداد والبعض الآخر ينخفض أثناء تطور النموذج.

يتزامن هذا مع المشاعر السابقة لمستخدمي الإنترنت.

كما يقول المؤلف نفسه:

يمكن أن يوفر هذا العمل رؤى قيمة حول المسار التطوري من GPT-3 إلى GPT-4.

بمعنى آخر ، من خلاله ، يمكننا الحصول على لمحة عن "مسار النجاح" لنموذج GPT ، وتوفير تجربة فعالة لأعمال بناء النموذج التالية واسعة النطاق.

لذا ، ما الذي "يفتح" بالضبط ، دعنا نلقي نظرة على الورقة.

** استكشاف تطور GPT-3 إلى GPT-4 **

تم تلخيص الرسم البياني التطوري الأول من قبل المؤلفين بناء على المعلومات المتاحة للجمهور.

كما ترى ، فإنه يشير إلى التقنيات التي خضع لها كل نموذج وسيط (مثل ضبط الكود ، SFT / FeedME ، إلخ) التي تطورت على طول الطريق من GPT-3 الأصلي إلى 3.5 والآن إلى 4.

من davinci إلى gpt-4-0613 ، اختبرت البايتات جميع القدرات الرئيسية ال 7 لكل جيل من GPT ، مثل الرياضيات والترميز والتفكير.

### **1. SFT: عامل تمكين تطور GPT المبكر **

أولا ، في عائلة GPT-3 ، تطور davinci الأصلي (GPT-3) إلى text-davinci-001 من خلال الإشراف على الضبط الدقيق ل SFT ومتغيره ، FeedME.

هذا يعطي الأخير دفعة أداء في جميع المهام تقريبا:

يظهر تمثيل أكثر سهولة في الشكل أدناه ("الفاندوم" هو النص المتطور-davinci-001).

ثم انتقلت GPT إلى السلسلة 3.5 ، حيث تطور أبسط كود davinci002 إلى text-davinci-002 باستخدام نفس التكنولوجيا.

ومع ذلك ، فإن تأثير هذه العملية التطورية ليس كبيرا في الحقيقة ، ولم يتحسن أداء GPT إلا عدة مرات ، ولم يزد المزيد بل انخفض.

هنا ، يؤدي المؤلفون إلى استنتاجهم الأول ، وهو:

يعمل SFT فقط على النماذج الأساسية الأضعف وله تأثير ضئيل على الطرز الأقوى.

يمكن رؤية ظاهرة مماثلة في النماذج مفتوحة المصدر (اختبرت هذه المراجعة أيضا Llama1 و 2 و PaLM2-L و Claude 2 وما إلى ذلك):

علاوة على Llama-65B الأصلي ، تمكنت SFT من تحسين أدائها على معيار MMLU ، لكن جميع Llama2-70Bs التي استخدمت تحسينات SFT أظهرت تحسينات طفيفة فقط على لوحة المتصدرين Open LLM.

ملخص: في مرحلة GPT3 ، لعبت تقنية SFT دورا رئيسيا في تطور النموذج.

**2 و RLHF و SFT: المساهمون في تحسين قدرة الترميز **

بعد سلسلة GPT3.5 ، بدءا من text-davinci-002 ، بدأت OpenAI في تقديم تقنية جديدة تعتمد على خوارزمية PPO RLHF ، مما أدى إلى text-davinci-003.

في هذه المرحلة ، يكون أدائها في معظم المعايير على قدم المساواة مع سابقتها أو أسوأ قليلا منها ، مما يشير إلى أن التأثير ليس واضحا بشكل خاص (وينطبق الشيء نفسه على نماذج المصادر المفتوحة).

مع استثناء واحد: مهمة الترميز ، والتي زادت بنحو 30 نقطة.

تذكرنا بالكود السابق davinci002 باستخدام تقنية SFT للتطور إلى text-davinci-002 ، مما تسبب في انخفاض الأداء العام ، لم تتأثر مهمة الترميز ، ولكن زادت النتيجة ——

قرر المؤلفون ** التحقق من تأثير SFT و RLHF على قدرة الترميز للنماذج الكبيرة **.

هنا ، قاموا بقياس درجات مثل pass@1 (احتمال مرور 1 من عينة واحدة) ، pass@100 (احتمال 100 تمريرة من 100 عينة) لعدة أجيال من نماذج GPT.

نتيجة لذلك ، أظهر النموذج باستخدام تقنية SFT و RLHF تحسنا كبيرا في pass@1 وانخفاضا طفيفا في pass@100 مقارنة بالنموذج الأساسي.

ماذا يعني هذا؟

يشرح المؤلف:

يصف pass@100 قدرة الترميز الجوهرية للنموذج ، بينما يمثل pass@1 قدرة الترميز لمرة واحدة والخالية من الأخطاء للنموذج.

يشير pass@100 الانخفاض الطفيف إلى أن SFT و RLHF لا يزال لديهما ما يسمى بضريبة المحاذاة على مهام الترميز ، تماما مثل أي مهمة أخرى.

ومع ذلك ، تمكنت SFT و RLHF من تعلم قدرات pass@1 pass@100 ، أي تحويل القدرات الجوهرية (ولكنها تتطلب العديد من المحاولات) إلى ترميز خال من الأخطاء مرة واحدة وأكثر ، مما أدى إلى زيادة كبيرة في pass@1.

بالنظر إلى النتائج بعناية ، يمكننا أن نرى أن gpt-3.5-turbo-0301 يحسن بشكل كبير pass@1 من خلال SFT و RLHF ، وهو خبر سار لتحسين أداء النماذج الصغيرة.

وهذا ليس كل شيء ، بالنظر إلى أن المؤلفين قد لاحظوا سابقا أن GPT-4 كان قادرا على حل المشكلة بعد عدة محاولات في بعض مهام الاستدلال المعقدة.

إلى جانب الملاحظات المذكورة أعلاه ، لخصوها على النحو التالي:
لا يزال بإمكان LLMs استخدام SFT و RLHF لتحويل قدراتهم الجوهرية باستمرار (لكنهم يحتاجون إلى محاولات متعددة) إلى قدرات حل المشكلات لمرة واحدة ، وتقترب من الحد الأعلى لقدرات LLMs.

المعنى الضمني هو أن GPT-4 يمكن أن يكون أقوى.

**3. تتم إضافة الكود إلى التدريب المسبق ، وهو الأكثر فائدة للاستدلال **

على طريق تطور GPT4 ، ظهرت أيضا نماذج خاصة 2:

code-cushman-001 (Codex-12B) 和code-davinci-002。

الأولى هي أول محاولة ل OpenAI لتدريب نموذج باستخدام بيانات التعليمات البرمجية ، وعلى الرغم من صغر حجمها ، فقد حققت أيضا قدرات كود جيدة.

هذا الأخير هو النموذج الأساسي ل GPT3.5 ، وهو نتيجة التدريب باستخدام رمز RLHF + على أساس GPT3 ، أي التدريب المسبق الهجين للنص والكود.

يمكن ملاحظة أنه يتفوق بشكل كبير على GPT-3 (ليس فقط في قدرة الترميز) ، بل ويتفوق على GPT-3.5-turbo-0613 في بعض مهام الاستدلال (مثل BBH).

يقول المؤلفان:

هذا يدل على أن إضافة بيانات التعليمات البرمجية إلى التدريب المسبق يمكن أن تحسن بشكل شامل قدرات LLMs ، وخاصة الاستدلال.

**4 ، ظاهرة "الأرجوحة" **

من خلال مقارنة نماذج OpenAI API من مارس 2023 ويونيو 2023 ، يمكننا بالفعل رؤية هذه الظاهرة:

بالمقارنة مع gpt-3.5-turbo-0301 ، فإن gpt-3.5-turbo-0613 الذي تمت ترقيته يعمل بشكل جيد على Human (53.9 -> 80.0) ، لكنه ينخفض بشكل ملحوظ في MATH (32.0 -> 15.0).

تفوق GPT-4-0613 على GPT-4-0314 (78.7 -> 87.2) على DROP ، ولكنه شهد أيضا انخفاضا (82.2 -> 68.7) على MGSM.

وفقا للمؤلفين:

قد تصبح "ظاهرة التأرجح" حجر عثرة على الطريق إلى AGI ل LLMs ، لأن AGI تؤكد على "الذكاء العام" ، وتتطلب أداء ممتازا في جميع المهام ، مما يتطلب ألا تكون النماذج "متحيزة".

هنا ، دعوا أيضا المجتمع إلى الاهتمام بهذه القضية وتعزيز البحث المشترك حول التطوير المتوازن للنماذج الكبيرة.

** مساعدة ممارسي النماذج الكبيرة في العثور على طريقهم **

تستند جميع النتائج المذكورة أعلاه إلى GPT-Fathom -

اقترحت Byte مؤخرا أداة تقييم نموذج كبيرة.

من المفترض أن يكون لدى الجميع أسئلة:

هناك بالفعل الكثير من تصنيفات النماذج الكبيرة وأدوات التقييم ، فلماذا تأتي بنهج جديد؟

وفقا للمؤلفين ، مقارنة بطرق التقييم الحالية ، فإن مقياس GPT-Fathom أكثر اتساقا ، والنتائج قابلة للتكرار.

يمكن لممارسي النماذج الكبيرة استخدامه لتوضيح مكان الفجوة بينهم وبين النموذج الرائد ، وذلك لتحسين منتجاتهم بطريقة مستهدفة.

على وجه التحديد ، يحل GPT-Fathom بشكل أساسي ثلاثة أوجه قصور في طرق تقييم النماذج الكبيرة الأخرى:

** معايير الإعداد غير المتسقة **: لا يوجد معيار موحد لاستخدام إعدادات مثل سلسلة الفكر (CoT) ، وحجم العينة ، وما إلى ذلك ، وطرق تقييم الإجابة ** نموذج غير مكتمل وجمع المهام **: القدرة على اختبار الانتباه ليست شاملة ، وهناك نقص في التركيز على النماذج السابقة ** نقص الأبحاث حول حساسية النموذج **

من أجل عكس خصائص GPT-Fatham بشكل أكثر حدسية ، يقارن المؤلف بعض القوائم المحددة الموجودة ، والتي يمكن تلخيصها في الجدول التالي:

من بينها ، وجد تقييم الحساسية مشاكل فشلت معايير الاختبار السابقة في تحديدها.

بالمقارنة مع GPT ، فإن الطرز الأخرى حساسة للغاية للكلمات السريعة ، وسيؤدي التغيير الطفيف إلى إخراج مختلف تماما ، مما يشير إلى أنه لا تزال هناك فجوة كبيرة بين متانة النماذج الأخرى و GPT.

على سبيل المثال ، في مجموعة بيانات TriviaQA ، أدى تغيير طفيف في كلمة المطالبة إلى خفض درجة اللاما 2-70B بمقدار الربع ، بينما لم تتغير نماذج سلسلة GPT بشكل كبير.

بالإضافة إلى ذلك ، يتم أيضا تضمين عوامل مثل CoT وحجم العينة وتباين أخذ العينات في اختبار الحساسية.

في المستقبل ، يخطط المؤلفون لمواصلة توسيع GPT-Fathom من ثلاثة أبعاد: أنواع القدرات ، ومجموعات بيانات الاختبار ، والنماذج ، وسيدعمون تقييم الحوار متعدد الجولات ، والوسائط المتعددة والقدرات الأخرى ، بالإضافة إلى زيادة اختبار مجموعات البيانات والنماذج المتعددة.

المؤلفان المشاركان ل GPT-Fatham هما Yuyu Zhang ، الباحث في مجموعة أبحاث التعلم الآلي التطبيقي في Byte ، وشين تشنغ ، المتدرب.

شين تشنغ طالب ماجستير في جامعة إلينوي في أوربانا شامبين (UIUC).

بالإضافة إلى ذلك ، شارك في الدراسة أربعة باحثين ، بما في ذلك Yijie Zhu من Bytes ، والبروفيسور Kevin Chen-Chuan Chang من UIUC.

عنوان:

الروابط المرجعية:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت