أعطى بايت OpenAI جميع النماذج الكبيرة عملية "unboxing".
لقد اكتشفت النتائج حقا الدور المحدد وتأثير بعض التقنيات الرئيسية على تطور GPT-4.
مثل ماذا:
كان SFT هو عامل التمكين لتطور GPT المبكر
أكبر المساهمين في قدرات ترميز GPT هم SFT و RLHF
تؤدي إضافة بيانات الكود إلى التدريب المسبق إلى تحسين قدرة إصدارات GPT اللاحقة في ** جميع الجوانب ** ، وخاصة الاستدلال ...
بعد بدء عمل تجاري ، ظهر الثور ** الذكاء الاصطناعي Li Mu ** ، الذي كان مشغولا للغاية ، في نظر الجمهور بعد وقت طويل وأشاد بهذا البحث.
حتى أن مستخدمي الإنترنت أشادوا:
هذا هو العمل الأول حتى الآن الذي يفتح بالكامل جميع نماذج OpenAI ، والاحترام.
بالإضافة إلى بعض الاكتشافات الجديدة ، فإنه يؤكد أيضا بعض التخمينات الحالية:
على سبيل المثال ، GPT-4 ليس مثيرا للقلق بشأن أن يصبح غبيا ، وقد وجد هذا التقييم أن هناك "ظاهرة متأرجحة" واضحة على طريق تطور GPT ، أي أن بعض القدرات تزداد والبعض الآخر ينخفض أثناء تطور النموذج.
يتزامن هذا مع المشاعر السابقة لمستخدمي الإنترنت.
كما يقول المؤلف نفسه:
يمكن أن يوفر هذا العمل رؤى قيمة حول المسار التطوري من GPT-3 إلى GPT-4.
بمعنى آخر ، من خلاله ، يمكننا الحصول على لمحة عن "مسار النجاح" لنموذج GPT ، وتوفير تجربة فعالة لأعمال بناء النموذج التالية واسعة النطاق.
لذا ، ما الذي "يفتح" بالضبط ، دعنا نلقي نظرة على الورقة.
** استكشاف تطور GPT-3 إلى GPT-4 **
تم تلخيص الرسم البياني التطوري الأول من قبل المؤلفين بناء على المعلومات المتاحة للجمهور.
كما ترى ، فإنه يشير إلى التقنيات التي خضع لها كل نموذج وسيط (مثل ضبط الكود ، SFT / FeedME ، إلخ) التي تطورت على طول الطريق من GPT-3 الأصلي إلى 3.5 والآن إلى 4.
من davinci إلى gpt-4-0613 ، اختبرت البايتات جميع القدرات الرئيسية ال 7 لكل جيل من GPT ، مثل الرياضيات والترميز والتفكير.
### **1. SFT: عامل تمكين تطور GPT المبكر **
أولا ، في عائلة GPT-3 ، تطور davinci الأصلي (GPT-3) إلى text-davinci-001 من خلال الإشراف على الضبط الدقيق ل SFT ومتغيره ، FeedME.
هذا يعطي الأخير دفعة أداء في جميع المهام تقريبا:
يظهر تمثيل أكثر سهولة في الشكل أدناه ("الفاندوم" هو النص المتطور-davinci-001).
ثم انتقلت GPT إلى السلسلة 3.5 ، حيث تطور أبسط كود davinci002 إلى text-davinci-002 باستخدام نفس التكنولوجيا.
ومع ذلك ، فإن تأثير هذه العملية التطورية ليس كبيرا في الحقيقة ، ولم يتحسن أداء GPT إلا عدة مرات ، ولم يزد المزيد بل انخفض.
هنا ، يؤدي المؤلفون إلى استنتاجهم الأول ، وهو:
يعمل SFT فقط على النماذج الأساسية الأضعف وله تأثير ضئيل على الطرز الأقوى.
يمكن رؤية ظاهرة مماثلة في النماذج مفتوحة المصدر (اختبرت هذه المراجعة أيضا Llama1 و 2 و PaLM2-L و Claude 2 وما إلى ذلك):
علاوة على Llama-65B الأصلي ، تمكنت SFT من تحسين أدائها على معيار MMLU ، لكن جميع Llama2-70Bs التي استخدمت تحسينات SFT أظهرت تحسينات طفيفة فقط على لوحة المتصدرين Open LLM.
ملخص: في مرحلة GPT3 ، لعبت تقنية SFT دورا رئيسيا في تطور النموذج.
**2 و RLHF و SFT: المساهمون في تحسين قدرة الترميز **
بعد سلسلة GPT3.5 ، بدءا من text-davinci-002 ، بدأت OpenAI في تقديم تقنية جديدة تعتمد على خوارزمية PPO RLHF ، مما أدى إلى text-davinci-003.
في هذه المرحلة ، يكون أدائها في معظم المعايير على قدم المساواة مع سابقتها أو أسوأ قليلا منها ، مما يشير إلى أن التأثير ليس واضحا بشكل خاص (وينطبق الشيء نفسه على نماذج المصادر المفتوحة).
مع استثناء واحد: مهمة الترميز ، والتي زادت بنحو 30 نقطة.
تذكرنا بالكود السابق davinci002 باستخدام تقنية SFT للتطور إلى text-davinci-002 ، مما تسبب في انخفاض الأداء العام ، لم تتأثر مهمة الترميز ، ولكن زادت النتيجة ——
قرر المؤلفون ** التحقق من تأثير SFT و RLHF على قدرة الترميز للنماذج الكبيرة **.
هنا ، قاموا بقياس درجات مثل pass@1 (احتمال مرور 1 من عينة واحدة) ، pass@100 (احتمال 100 تمريرة من 100 عينة) لعدة أجيال من نماذج GPT.
نتيجة لذلك ، أظهر النموذج باستخدام تقنية SFT و RLHF تحسنا كبيرا في pass@1 وانخفاضا طفيفا في pass@100 مقارنة بالنموذج الأساسي.
ماذا يعني هذا؟
يشرح المؤلف:
يصف pass@100 قدرة الترميز الجوهرية للنموذج ، بينما يمثل pass@1 قدرة الترميز لمرة واحدة والخالية من الأخطاء للنموذج.
يشير pass@100 الانخفاض الطفيف إلى أن SFT و RLHF لا يزال لديهما ما يسمى بضريبة المحاذاة على مهام الترميز ، تماما مثل أي مهمة أخرى.
ومع ذلك ، تمكنت SFT و RLHF من تعلم قدرات pass@1 pass@100 ، أي تحويل القدرات الجوهرية (ولكنها تتطلب العديد من المحاولات) إلى ترميز خال من الأخطاء مرة واحدة وأكثر ، مما أدى إلى زيادة كبيرة في pass@1.
بالنظر إلى النتائج بعناية ، يمكننا أن نرى أن gpt-3.5-turbo-0301 يحسن بشكل كبير pass@1 من خلال SFT و RLHF ، وهو خبر سار لتحسين أداء النماذج الصغيرة.
وهذا ليس كل شيء ، بالنظر إلى أن المؤلفين قد لاحظوا سابقا أن GPT-4 كان قادرا على حل المشكلة بعد عدة محاولات في بعض مهام الاستدلال المعقدة.
إلى جانب الملاحظات المذكورة أعلاه ، لخصوها على النحو التالي:
لا يزال بإمكان LLMs استخدام SFT و RLHF لتحويل قدراتهم الجوهرية باستمرار (لكنهم يحتاجون إلى محاولات متعددة) إلى قدرات حل المشكلات لمرة واحدة ، وتقترب من الحد الأعلى لقدرات LLMs.
المعنى الضمني هو أن GPT-4 يمكن أن يكون أقوى.
**3. تتم إضافة الكود إلى التدريب المسبق ، وهو الأكثر فائدة للاستدلال **
على طريق تطور GPT4 ، ظهرت أيضا نماذج خاصة 2:
code-cushman-001 (Codex-12B) 和code-davinci-002。
الأولى هي أول محاولة ل OpenAI لتدريب نموذج باستخدام بيانات التعليمات البرمجية ، وعلى الرغم من صغر حجمها ، فقد حققت أيضا قدرات كود جيدة.
هذا الأخير هو النموذج الأساسي ل GPT3.5 ، وهو نتيجة التدريب باستخدام رمز RLHF + على أساس GPT3 ، أي التدريب المسبق الهجين للنص والكود.
يمكن ملاحظة أنه يتفوق بشكل كبير على GPT-3 (ليس فقط في قدرة الترميز) ، بل ويتفوق على GPT-3.5-turbo-0613 في بعض مهام الاستدلال (مثل BBH).
يقول المؤلفان:
هذا يدل على أن إضافة بيانات التعليمات البرمجية إلى التدريب المسبق يمكن أن تحسن بشكل شامل قدرات LLMs ، وخاصة الاستدلال.
**4 ، ظاهرة "الأرجوحة" **
من خلال مقارنة نماذج OpenAI API من مارس 2023 ويونيو 2023 ، يمكننا بالفعل رؤية هذه الظاهرة:
بالمقارنة مع gpt-3.5-turbo-0301 ، فإن gpt-3.5-turbo-0613 الذي تمت ترقيته يعمل بشكل جيد على Human (53.9 -> 80.0) ، لكنه ينخفض بشكل ملحوظ في MATH (32.0 -> 15.0).
تفوق GPT-4-0613 على GPT-4-0314 (78.7 -> 87.2) على DROP ، ولكنه شهد أيضا انخفاضا (82.2 -> 68.7) على MGSM.
وفقا للمؤلفين:
قد تصبح "ظاهرة التأرجح" حجر عثرة على الطريق إلى AGI ل LLMs ، لأن AGI تؤكد على "الذكاء العام" ، وتتطلب أداء ممتازا في جميع المهام ، مما يتطلب ألا تكون النماذج "متحيزة".
هنا ، دعوا أيضا المجتمع إلى الاهتمام بهذه القضية وتعزيز البحث المشترك حول التطوير المتوازن للنماذج الكبيرة.
** مساعدة ممارسي النماذج الكبيرة في العثور على طريقهم **
تستند جميع النتائج المذكورة أعلاه إلى GPT-Fathom -
اقترحت Byte مؤخرا أداة تقييم نموذج كبيرة.
من المفترض أن يكون لدى الجميع أسئلة:
هناك بالفعل الكثير من تصنيفات النماذج الكبيرة وأدوات التقييم ، فلماذا تأتي بنهج جديد؟
وفقا للمؤلفين ، مقارنة بطرق التقييم الحالية ، فإن مقياس GPT-Fathom أكثر اتساقا ، والنتائج قابلة للتكرار.
يمكن لممارسي النماذج الكبيرة استخدامه لتوضيح مكان الفجوة بينهم وبين النموذج الرائد ، وذلك لتحسين منتجاتهم بطريقة مستهدفة.
على وجه التحديد ، يحل GPT-Fathom بشكل أساسي ثلاثة أوجه قصور في طرق تقييم النماذج الكبيرة الأخرى:
** معايير الإعداد غير المتسقة **: لا يوجد معيار موحد لاستخدام إعدادات مثل سلسلة الفكر (CoT) ، وحجم العينة ، وما إلى ذلك ، وطرق تقييم الإجابة
** نموذج غير مكتمل وجمع المهام **: القدرة على اختبار الانتباه ليست شاملة ، وهناك نقص في التركيز على النماذج السابقة
** نقص الأبحاث حول حساسية النموذج **
من أجل عكس خصائص GPT-Fatham بشكل أكثر حدسية ، يقارن المؤلف بعض القوائم المحددة الموجودة ، والتي يمكن تلخيصها في الجدول التالي:
من بينها ، وجد تقييم الحساسية مشاكل فشلت معايير الاختبار السابقة في تحديدها.
بالمقارنة مع GPT ، فإن الطرز الأخرى حساسة للغاية للكلمات السريعة ، وسيؤدي التغيير الطفيف إلى إخراج مختلف تماما ، مما يشير إلى أنه لا تزال هناك فجوة كبيرة بين متانة النماذج الأخرى و GPT.
على سبيل المثال ، في مجموعة بيانات TriviaQA ، أدى تغيير طفيف في كلمة المطالبة إلى خفض درجة اللاما 2-70B بمقدار الربع ، بينما لم تتغير نماذج سلسلة GPT بشكل كبير.
بالإضافة إلى ذلك ، يتم أيضا تضمين عوامل مثل CoT وحجم العينة وتباين أخذ العينات في اختبار الحساسية.
في المستقبل ، يخطط المؤلفون لمواصلة توسيع GPT-Fathom من ثلاثة أبعاد: أنواع القدرات ، ومجموعات بيانات الاختبار ، والنماذج ، وسيدعمون تقييم الحوار متعدد الجولات ، والوسائط المتعددة والقدرات الأخرى ، بالإضافة إلى زيادة اختبار مجموعات البيانات والنماذج المتعددة.
المؤلفان المشاركان ل GPT-Fatham هما Yuyu Zhang ، الباحث في مجموعة أبحاث التعلم الآلي التطبيقي في Byte ، وشين تشنغ ، المتدرب.
شين تشنغ طالب ماجستير في جامعة إلينوي في أوربانا شامبين (UIUC).
بالإضافة إلى ذلك ، شارك في الدراسة أربعة باحثين ، بما في ذلك Yijie Zhu من Bytes ، والبروفيسور Kevin Chen-Chuan Chang من UIUC.
عنوان:
الروابط المرجعية:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
وحدات البايت "تفتح" جميع نماذج OpenAI الكبيرة ، وتكشف عن مسار التطور من GPT-3 إلى GPT-4! فجر لي مو بها
مصدر المقال: الكيوبتات
كيف تطور GPT-3 بالضبط إلى GPT-4؟
أعطى بايت OpenAI جميع النماذج الكبيرة عملية "unboxing".
لقد اكتشفت النتائج حقا الدور المحدد وتأثير بعض التقنيات الرئيسية على تطور GPT-4.
بعد بدء عمل تجاري ، ظهر الثور ** الذكاء الاصطناعي Li Mu ** ، الذي كان مشغولا للغاية ، في نظر الجمهور بعد وقت طويل وأشاد بهذا البحث.
على سبيل المثال ، GPT-4 ليس مثيرا للقلق بشأن أن يصبح غبيا ، وقد وجد هذا التقييم أن هناك "ظاهرة متأرجحة" واضحة على طريق تطور GPT ، أي أن بعض القدرات تزداد والبعض الآخر ينخفض أثناء تطور النموذج.
يتزامن هذا مع المشاعر السابقة لمستخدمي الإنترنت.
بمعنى آخر ، من خلاله ، يمكننا الحصول على لمحة عن "مسار النجاح" لنموذج GPT ، وتوفير تجربة فعالة لأعمال بناء النموذج التالية واسعة النطاق.
لذا ، ما الذي "يفتح" بالضبط ، دعنا نلقي نظرة على الورقة.
** استكشاف تطور GPT-3 إلى GPT-4 **
تم تلخيص الرسم البياني التطوري الأول من قبل المؤلفين بناء على المعلومات المتاحة للجمهور.
كما ترى ، فإنه يشير إلى التقنيات التي خضع لها كل نموذج وسيط (مثل ضبط الكود ، SFT / FeedME ، إلخ) التي تطورت على طول الطريق من GPT-3 الأصلي إلى 3.5 والآن إلى 4.
من davinci إلى gpt-4-0613 ، اختبرت البايتات جميع القدرات الرئيسية ال 7 لكل جيل من GPT ، مثل الرياضيات والترميز والتفكير.
أولا ، في عائلة GPT-3 ، تطور davinci الأصلي (GPT-3) إلى text-davinci-001 من خلال الإشراف على الضبط الدقيق ل SFT ومتغيره ، FeedME.
هذا يعطي الأخير دفعة أداء في جميع المهام تقريبا:
ومع ذلك ، فإن تأثير هذه العملية التطورية ليس كبيرا في الحقيقة ، ولم يتحسن أداء GPT إلا عدة مرات ، ولم يزد المزيد بل انخفض.
يعمل SFT فقط على النماذج الأساسية الأضعف وله تأثير ضئيل على الطرز الأقوى.
يمكن رؤية ظاهرة مماثلة في النماذج مفتوحة المصدر (اختبرت هذه المراجعة أيضا Llama1 و 2 و PaLM2-L و Claude 2 وما إلى ذلك):
علاوة على Llama-65B الأصلي ، تمكنت SFT من تحسين أدائها على معيار MMLU ، لكن جميع Llama2-70Bs التي استخدمت تحسينات SFT أظهرت تحسينات طفيفة فقط على لوحة المتصدرين Open LLM.
ملخص: في مرحلة GPT3 ، لعبت تقنية SFT دورا رئيسيا في تطور النموذج.
**2 و RLHF و SFT: المساهمون في تحسين قدرة الترميز **
بعد سلسلة GPT3.5 ، بدءا من text-davinci-002 ، بدأت OpenAI في تقديم تقنية جديدة تعتمد على خوارزمية PPO RLHF ، مما أدى إلى text-davinci-003.
في هذه المرحلة ، يكون أدائها في معظم المعايير على قدم المساواة مع سابقتها أو أسوأ قليلا منها ، مما يشير إلى أن التأثير ليس واضحا بشكل خاص (وينطبق الشيء نفسه على نماذج المصادر المفتوحة).
مع استثناء واحد: مهمة الترميز ، والتي زادت بنحو 30 نقطة.
هنا ، قاموا بقياس درجات مثل pass@1 (احتمال مرور 1 من عينة واحدة) ، pass@100 (احتمال 100 تمريرة من 100 عينة) لعدة أجيال من نماذج GPT.
ماذا يعني هذا؟
يشرح المؤلف:
يصف pass@100 قدرة الترميز الجوهرية للنموذج ، بينما يمثل pass@1 قدرة الترميز لمرة واحدة والخالية من الأخطاء للنموذج.
يشير pass@100 الانخفاض الطفيف إلى أن SFT و RLHF لا يزال لديهما ما يسمى بضريبة المحاذاة على مهام الترميز ، تماما مثل أي مهمة أخرى.
ومع ذلك ، تمكنت SFT و RLHF من تعلم قدرات pass@1 pass@100 ، أي تحويل القدرات الجوهرية (ولكنها تتطلب العديد من المحاولات) إلى ترميز خال من الأخطاء مرة واحدة وأكثر ، مما أدى إلى زيادة كبيرة في pass@1.
بالنظر إلى النتائج بعناية ، يمكننا أن نرى أن gpt-3.5-turbo-0301 يحسن بشكل كبير pass@1 من خلال SFT و RLHF ، وهو خبر سار لتحسين أداء النماذج الصغيرة.
إلى جانب الملاحظات المذكورة أعلاه ، لخصوها على النحو التالي:
لا يزال بإمكان LLMs استخدام SFT و RLHF لتحويل قدراتهم الجوهرية باستمرار (لكنهم يحتاجون إلى محاولات متعددة) إلى قدرات حل المشكلات لمرة واحدة ، وتقترب من الحد الأعلى لقدرات LLMs.
المعنى الضمني هو أن GPT-4 يمكن أن يكون أقوى.
**3. تتم إضافة الكود إلى التدريب المسبق ، وهو الأكثر فائدة للاستدلال **
على طريق تطور GPT4 ، ظهرت أيضا نماذج خاصة 2:
code-cushman-001 (Codex-12B) 和code-davinci-002。
الأولى هي أول محاولة ل OpenAI لتدريب نموذج باستخدام بيانات التعليمات البرمجية ، وعلى الرغم من صغر حجمها ، فقد حققت أيضا قدرات كود جيدة.
هذا الأخير هو النموذج الأساسي ل GPT3.5 ، وهو نتيجة التدريب باستخدام رمز RLHF + على أساس GPT3 ، أي التدريب المسبق الهجين للنص والكود.
يمكن ملاحظة أنه يتفوق بشكل كبير على GPT-3 (ليس فقط في قدرة الترميز) ، بل ويتفوق على GPT-3.5-turbo-0613 في بعض مهام الاستدلال (مثل BBH).
هذا يدل على أن إضافة بيانات التعليمات البرمجية إلى التدريب المسبق يمكن أن تحسن بشكل شامل قدرات LLMs ، وخاصة الاستدلال.
**4 ، ظاهرة "الأرجوحة" **
من خلال مقارنة نماذج OpenAI API من مارس 2023 ويونيو 2023 ، يمكننا بالفعل رؤية هذه الظاهرة:
بالمقارنة مع gpt-3.5-turbo-0301 ، فإن gpt-3.5-turbo-0613 الذي تمت ترقيته يعمل بشكل جيد على Human (53.9 -> 80.0) ، لكنه ينخفض بشكل ملحوظ في MATH (32.0 -> 15.0).
تفوق GPT-4-0613 على GPT-4-0314 (78.7 -> 87.2) على DROP ، ولكنه شهد أيضا انخفاضا (82.2 -> 68.7) على MGSM.
وفقا للمؤلفين:
قد تصبح "ظاهرة التأرجح" حجر عثرة على الطريق إلى AGI ل LLMs ، لأن AGI تؤكد على "الذكاء العام" ، وتتطلب أداء ممتازا في جميع المهام ، مما يتطلب ألا تكون النماذج "متحيزة".
هنا ، دعوا أيضا المجتمع إلى الاهتمام بهذه القضية وتعزيز البحث المشترك حول التطوير المتوازن للنماذج الكبيرة.
** مساعدة ممارسي النماذج الكبيرة في العثور على طريقهم **
تستند جميع النتائج المذكورة أعلاه إلى GPT-Fathom -
اقترحت Byte مؤخرا أداة تقييم نموذج كبيرة.
من المفترض أن يكون لدى الجميع أسئلة:
هناك بالفعل الكثير من تصنيفات النماذج الكبيرة وأدوات التقييم ، فلماذا تأتي بنهج جديد؟
وفقا للمؤلفين ، مقارنة بطرق التقييم الحالية ، فإن مقياس GPT-Fathom أكثر اتساقا ، والنتائج قابلة للتكرار.
يمكن لممارسي النماذج الكبيرة استخدامه لتوضيح مكان الفجوة بينهم وبين النموذج الرائد ، وذلك لتحسين منتجاتهم بطريقة مستهدفة.
على وجه التحديد ، يحل GPT-Fathom بشكل أساسي ثلاثة أوجه قصور في طرق تقييم النماذج الكبيرة الأخرى:
** معايير الإعداد غير المتسقة **: لا يوجد معيار موحد لاستخدام إعدادات مثل سلسلة الفكر (CoT) ، وحجم العينة ، وما إلى ذلك ، وطرق تقييم الإجابة ** نموذج غير مكتمل وجمع المهام **: القدرة على اختبار الانتباه ليست شاملة ، وهناك نقص في التركيز على النماذج السابقة ** نقص الأبحاث حول حساسية النموذج **
من أجل عكس خصائص GPT-Fatham بشكل أكثر حدسية ، يقارن المؤلف بعض القوائم المحددة الموجودة ، والتي يمكن تلخيصها في الجدول التالي:
بالمقارنة مع GPT ، فإن الطرز الأخرى حساسة للغاية للكلمات السريعة ، وسيؤدي التغيير الطفيف إلى إخراج مختلف تماما ، مما يشير إلى أنه لا تزال هناك فجوة كبيرة بين متانة النماذج الأخرى و GPT.
على سبيل المثال ، في مجموعة بيانات TriviaQA ، أدى تغيير طفيف في كلمة المطالبة إلى خفض درجة اللاما 2-70B بمقدار الربع ، بينما لم تتغير نماذج سلسلة GPT بشكل كبير.
في المستقبل ، يخطط المؤلفون لمواصلة توسيع GPT-Fathom من ثلاثة أبعاد: أنواع القدرات ، ومجموعات بيانات الاختبار ، والنماذج ، وسيدعمون تقييم الحوار متعدد الجولات ، والوسائط المتعددة والقدرات الأخرى ، بالإضافة إلى زيادة اختبار مجموعات البيانات والنماذج المتعددة.
المؤلفان المشاركان ل GPT-Fatham هما Yuyu Zhang ، الباحث في مجموعة أبحاث التعلم الآلي التطبيقي في Byte ، وشين تشنغ ، المتدرب.
شين تشنغ طالب ماجستير في جامعة إلينوي في أوربانا شامبين (UIUC).
بالإضافة إلى ذلك ، شارك في الدراسة أربعة باحثين ، بما في ذلك Yijie Zhu من Bytes ، والبروفيسور Kevin Chen-Chuan Chang من UIUC.
عنوان:
الروابط المرجعية: