DeepMind: تتعرض النماذج الكبيرة أيضا لعيوب كبيرة ولا يمكنها تصحيح منطقها بمفردها ، ما لم تكن الإجابة الصحيحة معروفة مسبقا

2023-10-23 01:58:10

المصدر الأصلي: شين جي يوان

وجد الباحثون > DeepMind أن LLM لديها عيب متأصل - لا يمكنها الحصول على استجابات أفضل من خلال التصحيح الذاتي أثناء التفكير ما لم يتم تعيين تسميات الحقيقة مسبقا في مجموعة البيانات. أرسل ماركوس الورقة بسعادة مرة أخرى.

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

تم الكشف عن عيب رئيسي آخر في نموذج اللغة الكبيرة بواسطة DeepMind!

لا يمكن ل LLM تصحيح الأخطاء في منطقها الخاص.

يمكن للتصحيح الذاتي ، وهو أسلوب للسماح للنماذج بتصحيح إجاباتها الخاصة ، أن يحسن بشكل كبير جودة إخراج النموذج في العديد من أنواع المهام.

لكن في الآونة الأخيرة ، وجد الباحثون في Google DeepMind و UIUC أن "آلية التصحيح الذاتي" ل LLM أصبحت فجأة عديمة الفائدة لمهام التفكير.

علاوة على ذلك ، لا تستطيع LLM فقط تصحيح الإجابات على مهام التفكير ذاتيا ، ولكن في كثير من الأحيان تصحح ذاتيا ، كما ستنخفض جودة الإجابات بشكل كبير.

كما أعاد ماركوس تغريد الورقة ، على أمل لفت انتباه المزيد من الباحثين إلى هذا الخلل في نموذج اللغة الكبيرة.

تعتمد تقنية "التصحيح الذاتي" على فكرة بسيطة تتمثل في السماح ل LLM بتصحيح وتحسين المحتوى الذي تم إنشاؤه وفقا لمعايير معينة. يمكن لهذه الطريقة تحسين جودة إخراج النموذج بشكل كبير في مهام مثل المشكلات الرياضية.

لكن الباحثين وجدوا أنه في مهمة التفكير ، كانت التغذية المرتدة بعد التصحيح الذاتي جيدة جدا في بعض الأحيان ، وأحيانا كان التأثير ضعيفا جدا ، وحتى الأداء انخفض.

درس الباحثون أيضا الأدبيات التي اعتقدت أن "التصحيح الذاتي" يمكن أن يحسن ناتج التفكير ، وعند الفحص الدقيق ، وجدوا أن تحسين "التصحيح الذاتي" جاء من إدخال معلومات خارجية لتوجيه النموذج إلى التصحيح الذاتي. وعندما لا يتم تقديم معلومات خارجية ، تختفي هذه التحسينات.

على وجه التحديد ، يعمل التصحيح الذاتي بشكل فعال عندما يكون لدى النموذج إمكانية الوصول إلى تسميات الحقيقة الأساسية الواردة في مجموعة البيانات المعيارية.

وذلك لأن الخوارزمية يمكنها تحديد وقت إيقاف عملية الاستدلال بالضبط وتجنب تغيير الإجابة عندما تكون صحيحة بالفعل.

يعتقد الباحثون أن التسميات الحقيقية تميل إلى استخدامها في الدراسات السابقة لمنع النماذج من تغيير الإجابات الصحيحة إلى إجابات غير صحيحة. لكن كيفية منع وضع "التصحيح الصحيح" هذا هو في الواقع المفتاح لضمان نجاح التصحيح الذاتي.

لأنه عندما يزيل الباحثون التسمية الحقيقية من عملية التصحيح الذاتي ، فإن أداء النموذج يتدهور بشكل كبير.

كمحاولة لتحسين نهج التصحيح الذاتي ل LLM لمهام التفكير ، استكشف الباحثون أيضا إمكانات "النقاش متعدد الوكلاء" كوسيلة لتحسين التفكير. ومع ذلك ، تظهر نتائجهم أن هذه الطريقة لا تعمل بشكل أفضل من الاتساق الذاتي عند النظر في عدد متساو من الردود.

اقترح الباحثون كذلك مفاهيم "ما قبل الموجه" و "ما بعد الموجه".

يرون التصحيح الذاتي كشكل من أشكال المطالبة اللاحقة ، حيث يتم إدخال المطالبة التصحيحية بعد استجابة LLM.

يشير تحليل الباحثين إلى أن تعزيز التصحيح الذاتي في بعض المهام قد ينبع من مطالبات التغذية الراجعة المصممة جيدا والتي تخفي المطالبات الأولية الخام.

في هذه الحالة ، قد يؤدي دمج ملاحظات أفضل في التعليمات الأولية أو تصميم مطالبات أولية أفضل إلى نتائج أفضل وتقليل تكاليف الاستدلال.

بناء على نتائج الباحثين ، تعمق الباحثون في الفروق الدقيقة في قدرة LLM على التصحيح الذاتي ، وحثوا مجتمع البحث على التعامل مع أبحاث التصحيح الذاتي بمزيد من الدقة.

هل يمكن لنماذج اللغة الكبيرة تصحيح منطقها ذاتيا؟ **

حاول الباحثون أخذ طريقة التصحيح الذاتي الحالية ، باستخدام إعداداتها (باستخدام الملصقات لتوجيه عملية التصحيح الذاتي) لفحص فعاليتها في تحسين الأداء في مهام التفكير في LLM.

إعداد التجربة

الكلمات السريعة

استخدم الباحثون استراتيجية جديلة من ثلاث خطوات للتصحيح الذاتي:

مطالبة النموذج للتوليد الأولي (وهذا أيضا نتيجة للمطالبات القياسية) ؛
حث النموذج على مراجعة جيله السابق وتوليد التغذية الراجعة ؛
أجب عن السؤال الأصلي مرة أخرى من خلال نموذج موجه الملاحظات.

نموذج

تم إجراء الاختبار الرئيسي للباحثين على GPT-3.5-Turbo.

اختبر الباحثون أيضا GPT-4 ، الذي تم الوصول إليه في 29 أغسطس 2023 ، بهدف اختبار قدرات التصحيح الذاتي لأحدث وأقوى التكرارات لنماذج OpenAI.

بالنسبة ل GPT-3.5 ، استخدم الباحثون المجموعة الكاملة من التقييمات المذكورة سابقا. بالنسبة ل GPT-4 ، لتقليل التكاليف ، أخذ الباحثون عينات عشوائية من 200 سؤال لكل مجموعة بيانات (100 سؤال ل HotpotQA) للاختبار.

النتائج والتأملات

في حين أن الباحثين لم يستخدموا أي موارد أو أدوات خارجية في تجاربهم ، اتبع الباحثون العمل السابق ، باستخدام علامات الحقيقة لتحديد وقت إيقاف دورة التصحيح الذاتي.

ولكن في العالم الحقيقي ، خاصة عندما يعتزم الباحثون حل المشكلات الرياضية باستخدام LLM ، فإن الإجابة الصحيحة غير معروفة في معظم الأحيان.

لذلك ، يجب النظر في تحسين الأداء بعناية أكبر.

لتأكيد هذه الفكرة ، صمم الباحثون خط أساس يعتمد على تخمينات عشوائية. في هذا الأساس ، يواصل الباحثون استخدام علامات الحقيقة لتحديد متى يتوقفون. ومع ذلك ، لا يتم اتخاذ الإجراءات التصحيحية من قبل LLM ، ولكنها تستند إلى تخمينات عشوائية للخيارات المتبقية.

CommonSenseQA هي مجموعة بيانات أسئلة متعددة الخيارات توفر خمسة خيارات مرشحة لكل سؤال.

إذا تم التعبير عن دقة توليد جولة kth (الجيل الأولي هو الجولة 0) ك x ، فإن الدقة المتوقعة للبنيات اللاحقة تصبح x + (1 - x) / (5 - k).

وترد نتائج خط الأساس العشوائي هذا في الجدول 2 أعلاه.

بعد جولتين ، يكون أدائها مشابها أو حتى أفضل من المعايرة الذاتية ، وبعد 4 جولات ، تصل دقتها إلى 100٪.

ومع ذلك ، من الواضح أن خط الأساس العشوائي هذا لا يمكن اعتباره طريقة تصحيح فعالة. ومع ذلك ، فإن النتائج التي تم الحصول عليها باستخدام الملصقات قد تكون بمثابة أوراكل ، مما يشير إلى وجود مدققين مثاليين يمكنهم الحكم على صحة الإجابة.

في مهام مثل إنشاء التعليمات البرمجية ، يكون هذا ممكنا لأن الباحثين يمكنهم استخدام المنفذين واختبارات الوحدة لتحديد ما إذا كان الكود الذي تم إنشاؤه يعمل بنجاح (Chen et al. ، 2023b).

ومع ذلك ، بالنسبة لمهام التفكير ، مثل حل المشكلات الرياضية ، يبدو هذا الإعداد غير بديهي. إذا كان لدى الباحثين الحقيقة بالفعل ، فيبدو أنه لا يوجد سبب لاستخدام LLM لحل المشكلة.

** التصحيح الذاتي الجوهري **

بالنسبة ل GSM8K ، قد لا يوجد خط أساس عشوائي مماثل ، لكن الأساس المنطقي يظل كما هو.

بالإضافة إلى ذلك ، يمكن للباحثين تصميم خط أساس ، مثل إنشاء أرقام عشوائية واحدة تلو الأخرى. بعد بضع جولات ، قد تحصل على الإجابة الصحيحة ، لكن من الواضح أن مثل هذا التحسن لا معنى له. السبب الأكثر إلحاحا: لماذا يفعل الباحثون ذلك إذا كانوا يعرفون الإجابة بالفعل؟

تم تعريف الإعداد التجريبي في وقت سابق. لتحقيق ذلك ، قام الباحثون ببساطة بإزالة ملصق الاستخدام لتحديد وقت التوقف وتقييم الأداء من خلال جولتين من التصحيح الذاتي.

ويبين الجدول 3 أعلاه دقة عدد المكالمات النموذجية. لاحظ الباحثون أنه بعد التصحيح الذاتي ، تدهور أداء النموذج عبر جميع المعايير.

لماذا تدهور الأداء؟

يلخص الشكل 1 أعلاه نتائج تغيير الإجابة بعد جولتين من التصحيح الذاتي باستخدام GPT-3.5 ، ويظهر مثالان في الشكل 2 أدناه.

بالنسبة ل GSM8K ، يحتفظ النموذج بإجابته الأولية باحتمال 74.7٪. في الحالات المتبقية ، كان من المرجح أن يعدل النموذج الإجابة الصحيحة إلى الإجابة الخاطئة بدلا من تعديل الإجابة الخاطئة إلى الإجابة الصحيحة.

بالنسبة إلى CommonSenseQA ، من المرجح أن يغير GPT-3.5 إجابته. السبب الرئيسي لذلك هو أن خيارات الإجابة الخاطئة في CommonSenseQA غالبا ما تبدو مرتبطة إلى حد ما بالسؤال ، وقد يؤدي استخدام تلميحات التصحيح الذاتي إلى تحيز النموذج لصالح اختيار خيار آخر ، مما يؤدي إلى ارتفاع نسبة "خطأ ⇒ الصحيح".

دع الباحثين يلقون نظرة أخرى على النتائج الموضحة في الجدول 1 أعلاه. تستخدم هذه النتائج تسميات الحقيقة لمنع النموذج من تغيير الإجابة الصحيحة إلى الإجابة الخاطئة.

ومع ذلك ، فإن كيفية منع هذا "خطأ التصحيح" هو في الواقع المفتاح لضمان نجاح التصحيح الذاتي.

التفسير البديهي هو أنه إذا كان النموذج يتطابق مع موجه أولي جيد التصميم ، فعندئذ بالنظر إلى المطالبة وخوارزمية فك التشفير المحددة ، يجب أن تكون الاستجابة الأولية مثالية بالفعل.

يمكن النظر إلى تقديم التعليقات على أنه إضافة تلميحات إضافية قد تؤدي إلى تحيز النموذج نحو إنتاج استجابات تناسب هذا المزيج من المدخلات.

في إعداد التصحيح الذاتي الجوهري ، في مهمة الاستدلال ، قد لا توفر هذه المطالبة التكميلية أي ميزة إضافية للإجابة على السؤال.

في الواقع ، قد يؤدي ذلك إلى انحراف النموذج عن إنتاج أفضل استجابة للموجه الأولي ، مما يؤدي إلى تدهور الأداء.

قد يتساءل المرء ، هل إشارات التصحيح الذاتي التي اختبرها الباحثون ليست مثالية؟

هل يمكن للنصائح الأخرى تحسين الأداء؟ الجواب هو: من الممكن تماما للباحثين العثور على تلميح يعزز أداء النموذج على معيار محدد. ومع ذلك ، لم يعد هذا متسقا مع إعداد التصحيح الذاتي الجوهري الذي تمت مناقشته في هذه المقالة ، على غرار مناقشة إعداد حقيقي أقل عينة.

يستفيد هذا البحث بشكل أساسي من التعليقات الواردة من البشر أو أمثلة التدريب. بالإضافة إلى ذلك ، يمكن تطبيق نفس الإستراتيجية بشكل فعال لتحسين التلميحات الأولية ، مما قد يؤدي إلى تحقيق أداء أفضل دون الحاجة إلى استدعاءات نموذج إضافية للتصحيح الذاتي.

في الملحق ب ، اختبر الباحثون نصائح مختلفة لكنهم وجدوا أن الأداء لم يتحسن بعد.

علاوة على ذلك ، فإن الباحثين ليسوا أول من لاحظ أن التصحيح الذاتي لا يحسن بالضرورة القدرة على التفكير في LLM. باختصار ، لا ينصب تركيز الباحثين على معالجة أسئلة مثل ، "هل هناك إشارات تصحيح ذاتي يمكن أن تحسن أداء معيار معين؟" وهكذا. قد لا تكون هذه الاستفسارات ذات مغزى خاص.

بدلا من ذلك ، يهدف الباحثون إلى حل سؤال أكثر جوهرية - "هل يمكن لنماذج اللغة الكبيرة حقا تصحيح تفكيرها من تلقاء نفسها بناء على قدرتها المتأصلة وحدها؟"

التصحيح الذاتي كفكرة لاحقة **

في المحتوى السابق ، لاحظ الباحثون أن LLM واجهت تحديات في تصحيح منطقها ذاتيا.

ومع ذلك ، كما أظهرت الأبحاث السابقة ، فقد أسفر التصحيح الذاتي في بعض الحالات عن نتائج مبهرة.

لذلك ، من الأهمية بمكان تحديد التناقضات وتحديد الأسباب الجذرية.

لحل هذه المشكلة ، من المهم فهم الطبيعة الأساسية للتصحيح الذاتي. في شكله ، يمكن اعتبار التصحيح الذاتي فكرة لاحقة.

وهو يختلف عن المطالبات القياسية (تسمى المطالبات المسبقة هنا) في أن المطالبات تتم على رأس إجابات LLM.

يسمي الباحثون عملية تحسين هذه الإشارات بالهندسة الفورية بعد الحدث.

لذلك ، يعزز التصحيح الذاتي استجابات النموذج عندما يمكن أن يوفر التصحيح الذاتي إرشادات أو ملاحظات قيمة لا يمكن أن توفرها المطالبات السابقة.

على سبيل المثال ، عندما يكون الهدف هو جعل الاستجابة أكثر أمانا ، فقد يكون من الصعب توجيه النموذج لإنتاج استجابة خالية تماما من المخاطر في المحاولة الأولى باستخدام تلميحات مسبقة فقط. في هذه الحالة ، يمكن استخدام التصحيح الذاتي كوسيلة لتعزيز أمن الاستجابة من خلال فحوصات ما بعد الوفاة الدقيقة.

ومع ذلك ، قد لا يكون هذا هو الحال بالنسبة لمهام الاستدلال.

مطالبات الملاحظات، مثل "راجع إجاباتك السابقة وابحث عن مشكلة في إجاباتك". لا يوفر بالضرورة فوائد ملموسة للتفكير.

بالإضافة إلى ذلك ، حتى إذا لوحظ تحسن كبير في الأداء بعد التصحيح الذاتي ، فمن الضروري النظر بعناية في التصميم الفوري.

على سبيل المثال ، إذا كانت الاستجابة بحاجة إلى تلبية المعايير التي يمكن تحديدها بسهولة في التعليمات الأولية (على سبيل المثال ، يجب أن يحتوي الناتج على كلمات معينة ، ويجب أن يكون الرمز الذي تم إنشاؤه فعالا ، ويجب أن يكون الشعور سلبيا بشدة) ، بدلا من تقديم هذه المتطلبات كتعليقات في موجه ما بعد الوفاة ، فإن الإستراتيجية البديلة الأكثر فعالية من حيث التكلفة هي تضمين هذه المتطلبات مباشرة (صراحة) في الموجه المسبق.

تظهر النتائج الواردة في الجدول 5 أعلاه أن إشارة الباحثين المصممة بعناية "إشارة قياسية (للباحث)" كانت متفوقة على النتائج المصححة ذاتيا للدراسات السابقة.

بالإضافة إلى ذلك ، يتدهور الأداء حتى عندما يستخدم الباحثون نصائحهم لتحسين إنتاج الباحثين.

مرة أخرى ، هدف الباحثين هنا ليس الجدال حول ما إذا كانت هناك مطالبات لاحقة يمكن أن تتفوق على تلك التي يكتبها الباحثون حسب الرغبة. الهدف الرئيسي للباحثين هو تشجيع التدقيق الأكثر صرامة في تجارب المعايرة الذاتية.

ليس من المنطقي استخدام مطالبات ما بعد الوفاة المصممة جيدا لتوجيه النماذج "للتصحيح الذاتي" للاستجابات الناتجة عن المطالبات المسبقة السيئة.

من أجل إجراء مقارنة عادلة ، ينبغي بذل جهود متساوية في المطالبات السابقة واللاحقة للحدث.

موارد:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
1/3
1CandyDrop Airdrop Event 6.0
55k درجة الشعبية
2White House Crypto Report
53k درجة الشعبية
3Join Alpha RION Airdrop to Earn $40
38k درجة الشعبية
4Fed Holds Rates Decision
9k درجة الشعبية
5July Spark Program TOP 10 Creators Announced
3k درجة الشعبية

تثبيت

خريطة الموقع

DeepMind: تتعرض النماذج الكبيرة أيضا لعيوب كبيرة ولا يمكنها تصحيح منطقها بمفردها ، ما لم تكن الإجابة الصحيحة معروفة مسبقا

إعداد التجربة

**لماذا تدهور الأداء؟ **

لماذا تدهور الأداء؟