GPT-4 لا يعرف أنه خطأ! تم الكشف عن عيوب LLM الجديدة ، وكان معدل نجاح التصحيح الذاتي 1٪ فقط ، وصرخ LeCun Marcus أنه كلما صحح أكثر كلما كان الخطأ أكثر

GPT-4 ببساطة لا يعرف أنه يرتكب خطأ؟ وقد وجدت أحدث الأبحاث أن LLM في مهمة التفكير ، بعد التصحيح الذاتي ، لا يمكن أن ينقذ تدهور الأداء ، مما أدى الذكاء الاصطناعي رئيس LeCun Marcus إلى المشاهدة.

المصدر الأصلي: شين جي يوان

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

تعرض النموذج الكبير لعيوب كبيرة ، مما جذب انتباه LeCun و Marcus في نفس الوقت!

في تجربة الاستدلال ، النموذج الذي ادعى تحسين الدقة المصححة ذاتيا ، "حسن" معدل الدقة من 16٪ إلى 1٪!

ببساطة ، لا يمكن ل LLM تحسين الإخراج في شكل تصحيح ذاتي في شكل مهام الاستدلال ، ما لم يكن LLM يعرف بالفعل الإجابة الصحيحة في عملية التصحيح الذاتي.

تدحض ورقتان نشرهما باحثون في جامعة ولاية أريزونا طريقة "التصحيح الذاتي" التي اقترحتها العديد من الدراسات السابقة - السماح للنماذج الكبيرة بالتصحيح الذاتي لنتائج مخرجاتها يمكن أن يحسن جودة مخرجات النموذج.

عنوان الورقة:

عنوان الورقة:

التزم البروفيسور سوباراو كامبامباتي ، المؤلف المشارك للورقة ، بالبحث في القدرة على التفكير الذكاء الاصطناعي ، ونشر ورقة في سبتمبر ، حتى أنه أنكر تماما قدرة GPT-4 على التفكير والتخطيط.

عنوان الورقة:

بالإضافة إلى هذا الأستاذ ، شكك باحثون حديثون في DeepMind وجامعة UIUC أيضا في قدرة LLM على "التصحيح الذاتي" في مهام التفكير.

حتى أن الورقة تدعو جميع العلماء الذين يقومون بأبحاث ذات صلة إلى أخذ بحثك على محمل الجد ، وعدم إخبار النموذج الكبير بالإجابة الصحيحة ثم السماح له بتنفيذ ما يسمى ب "التصحيح الذاتي".

لأنه إذا كان النموذج لا يعرف الإجابة الصحيحة ، فسوف تتدهور جودة الإخراج بعد أن "يصحح النموذج ذاتيا".

بعد ذلك ، دعونا نلقي نظرة على هاتين الورقتين الأخيرتين.

** GPT-4 "التصحيح الذاتي" ، الإخراج أسوأ **

ركزت الورقة الأولى على GPT-4 ، وطلبت من GPT-4 تقديم حل لمشكلة تظليل الرسومات ، ثم جعل GPT-4 "يصحح ذاتيا" حله الخاص.

في الوقت نفسه ، قدم المؤلفون نظام تقييم خارجي لتقييم الناتج المباشر ل GPT-4 والمخرجات بعد دورة "التصحيح الذاتي".

تظهر النتائج التجريبية أن GPT-4 أقل دقة بنسبة 20٪ في تخمين اللون ، وهو ما لا يبدو مفاجئا.

لكن المثير للدهشة أن الدقة في وضع "التصحيح الذاتي" انخفضت بشكل كبير (الشريط الثاني أدناه) - على عكس جميع نوايا التصحيح الذاتي!

وفقا للمؤلفين ، يمكن تفسير هذا الموقف الذي يبدو غير بديهي من خلال هذا: يقوم GPT-4 أيضا بعمل رهيب في التحقق من الإجابات الصحيحة!

لأنه حتى عندما يخمن GPT-4 عن طريق الخطأ اللون الصحيح ، فإن "التصحيح الذاتي" سيجعله يعتقد أن الإجابة الصحيحة تمثل مشكلة ، ثم يحل محل الإجابة الصحيحة.

وجدت الأبحاث الإضافية أيضا أن GPT-4 سيحسن بالفعل حله إذا قدم مدقق خارجي إجابة صحيحة يمكن التحقق منها للون الذي خمنه.

في هذه الحالة ، يمكن للموجه الناتج عن "التصحيح الذاتي" أن يحسن بالفعل جودة الإخراج (الأشرطة 3-5 من الشكل أعلاه)

باختصار ، بالنسبة لمهمة "مشكلة التلوين" ، فإن "التصحيح الذاتي" المستقل ل GPT-4 سيضعف أداء الإخراج ، لأن GPT-4 لا يمكنه التحقق من صحة الإجابة.

ومع ذلك ، إذا تم توفير عملية التحقق الخارجي الصحيحة ، فإن "التصحيح الذاتي" الناتج عن GPT-4 يمكن أن يحسن الأداء بالفعل.

نظرت ورقة أخرى في قدرة نماذج اللغة الكبيرة على "التصحيح الذاتي" من منظور مهام التخطيط ، وكانت النتائج مشابهة للورقة السابقة.

علاوة على ذلك ، وجد الباحثون أن ما أدى حقا إلى تحسين دقة المخرجات لم يكن "التصحيح الذاتي" ل LLM ، ولكن ردود الفعل من مدقق خارجي مستقل.

في التحليل النهائي ، ليس لدى LLM طريقة لإجراء تحقق مستقل ، ويجب أن تعتمد على "الإجابة الصحيحة" التي قدمها مدقق خارجي من أجل "التصحيح الذاتي" بشكل فعال.

** كان أداء "أسئلة التلوين" ضعيفا ولم تتمكن LLM من التحقق بشكل مستقل من الإجابات الصحيحة **

إطار تصميم البحث

"مشكلة التلوين" هي مشكلة تفكير كلاسيكية للغاية ، حتى لو لم تكن صعبة ، فإن الإجابات متنوعة بما فيه الكفاية ، ومن السهل التحقق من صحة الإجابات.

تجعل نتائج التنوع من الصعب تغطية بيانات التدريب الكاملة ل LLM ، ويتم تجنب إمكانية تلوث بيانات تدريب LLM قدر الإمكان.

هذه الأسباب تجعل "مشكلة التلوين" مناسبة جدا لدراسة قدرة LLM على التفكير ، كما أنها مريحة لدراسة قدرة LLM على "التصحيح الذاتي" في التفكير.

قام الباحثون ببناء مجموعة البيانات الخاصة بهم ، باستخدام GrinPy2 للتعامل مع التلاعب بالرسم البياني الشائع. تم إنشاء كل رسم بياني باستخدام طريقة Erdos-Rényi (̋p = 0.4).

بمجرد العثور على الإجابة الصحيحة ، يتم تجميعها في تنسيق DIMACS القياسي مع تعليق يحتوي على رقمها اللوني المحسوب مسبقا.

بالنسبة للتجربة التالية ، أنشأ الباحثون 100 حالة ، كل منها بمتوسط 24 حافة ، موزعة على مجموعة من العقد من 10 إلى 17 - وهو توزيع أظهرت التجربة أنه نطاق متغير بما فيه الكفاية.

يظهر الرسم البياني الذي استخدمه الباحثون في الشكل 1 أدناه ، والذي يتضمن الرد الأول ل LLM ، والموجه الخلفي للاستجابة ، ونظام الألوان الصحيح النهائي.

### بنية للدعم التكراري

مولد موجه:

يأخذ منشئ المطالبة هذا مثيل DIMACS ، ويترجم كل حافة إلى جملة ، ثم يلف الكل في مجموعة من التعليمات العامة لإنشاء موجه لغة طبيعية.

قام الباحثون عمدا بتضييق الاختلافات بين مطالبات الحالات المختلفة لتقليل المعلومات الخاصة بالمشكلة التي سربها الباحثون إلى LLM. يمكن العثور على أمثلة لأنواع مختلفة من المطالبات في الملحق.

نماذج اللغة الكبيرة:

يتم استدعاء GPT-4 عبر واجهة برمجة تطبيقات OpenAI ، والتي تعد حاليا النموذج الأكثر تقدما.

يقدم الباحثون دورا للنظام: "أنت محلل رضا القيود الذي يحل مختلف CSP (مشاكل رضا القيود)".

الجيل الخلفي

في وضع المصادقة ، يتلقى LLM نوعا مختلفا من المطالبة.

بالإضافة إلى التعليمات القياسية ، فإنه يحتوي فقط على وصف للرسم التخطيطي ونظام تلوين موصى به. وتتمثل مهمتها في التحقق من الصحة والأمثل وأن كل رأس قد تم رسمه بلون.

إذا كان الرد الناتج يحتوي على مجموعة من الحواف المتناقضة ، فإن نظام التلوين خاطئ.

لمقارنة كل نقطة ، قام الباحثون أيضا ببناء مدقق يسرد كل حافة متناقضة.

نظرا لأن ردود LLM هي أيضا في شكل لغة طبيعية ، فقد ترجمها الباحثون أولا إلى تنسيق كان من السهل تحليله. لجعل هذه العملية أكثر اتساقا ، صمم الباحثون تلميحات أولية لوصف تنسيق الإخراج الدقيق الذي يحتاج النموذج إلى اتباعه. ثم يتم تقييم الاستجابة للتأكد من صحتها.

للحكم على نتائج التحقق من صحة LLM ، يدرس الباحثون مدى جودة أدائهم في تحديد الأخطاء في مخطط التظليل المقترح.

بشكل حدسي ، يجب أن يكون من السهل التعرف عليها: إذا كان رأسان يشكلان حافة يشتركان في لون ، فارجع على الفور إلى تلك الحافة. من وجهة نظر خوارزمية ، يكفي اكتشاف جميع الحواف ومقارنة لون كل رأس بلون النقطة التي يتصل بها.

التحقق

للحصول على فهم أعمق لقدرات التحقق من LLM ، درس الباحثون أدائهم في تحديد الأخطاء في مخطط التلوين المقترح.

بشكل حدسي ، يجب أن يكون من السهل تحديد هذه الأخطاء: إذا كان رأسان يشكلان حافة يشتركان في لون ، يتم إرجاع الحافة على الفور. من وجهة نظر خوارزمية ، كل ما يجب القيام به هو التكرار عبر جميع الحواف ومقارنة لون كل رأس بلون الرأس المقابل.

استخدم الباحثون نفس عملية التحليل ، لكنهم بنوا مجالا جديدا أطلق عليه الباحثون اسم color_verification. يتم توجيه LLM للتحقق من صحة التظليل ، والأمثل ، وما إذا كان قد تم تعيين لون لكل رأس.

إذا كان التظليل غير صحيح ، توجيهه لسرد الأخطاء في التظليل ، أي إذا كانت عقدتان متصلتان تشتركان في لون ، يتم إرجاع هذه الحافة لتمثيل الخطأ. لا يتم إعطاء ظهور.

استخدم الباحثون نفس مثال الرسم البياني كما كان من قبل ، لكنهم أنشأوا أربعة مخططات تظليل لاختبار النموذج:

صحيح: مخطط تظليل مثالي خال من الأخطاء تم إنشاؤه بواسطة خوارزمية جشعة عشوائية تكرارية (باستخدام عدد محسوب مسبقا من الألوان لضمان الأمثل).

Ablated: يغير لون عقدة عشوائية من مجموعة سابقة من مخططات التظليل إلى جيرانها.

غير الأمثل: في المجموعة الصحيحة ، يتم تحديد جزء اللون بشكل عشوائي وإعادة تلوينه إلى صبغة جديدة.

عشوائي: ألوان معينة عشوائيا تماما ، عدد الألوان المختلفة يساوي عدد ألوان الشكل.

LLM: مخطط تلوين تم اختياره عشوائيا من المخرجات الناتجة عن LLM من التجارب السابقة.

خاتمة

تتم المطالبة ب LLM ، ويتم تقييم الإجابات ، ويتم نقل المثيل التالي دون أي ظهور ، مما يؤدي إلى درجة أساسية تبلغ 16٪.

عندما أجرى الباحثون نفس المثيل ، ولكن هذه المرة أعادوا المطالبة باستخدام التعليقات الناتجة عن نفس نموذج اللغة الذي يعمل كمدقق ، انخفض الأداء بشكل كبير - حصلت حالة واحدة فقط من أصل 100 حالة على الإجابة الصحيحة.

قد تبدو نتائج مطالبة الإرجاع مع مدقق مؤهل خارجيا أكثر فعالية في البداية.

يقترب عدد حالات الردود الصحيحة من 40 بالمائة ، ولكن إذا كان ذلك يعني أن GPT-4 يستمع ويتحسن ويفكر بناء على التعليقات ، فإن الباحثين يتوقعون نتائج أفضل من مطالبات إرجاع أكثر دقة.

ومع ذلك ، في هذا المجال ، لا يثبت الجزء الخام (انظر الشكل 2 أعلاه) ذلك.

** القدرة على التحقق من LLM **

اختبر الباحثون قدرة GPT-4 على التحقق من مخططات تظليل الرسم البياني في نفس الحالة ، مما أدى إلى إنشاء خمسة أنواع مختلفة من مخططات التظليل لكل حالة.

النتيجة الواضحة هي بالضبط نفس نتيجة التصحيح الذاتي LLM أعلاه: النموذج متردد تقريبا في وضع علامة على أي إجابات على أنها صحيحة. من بين 100 مخطط تظليل مثالي ، يوافق على أن 2 منها فقط صحيحة.

من بين المجموعة الكاملة المكونة من 500 مخطط تلوين ، 118 منها صحيحة ، تدعي فقط أن 30 منها صحيحة. من بين هؤلاء ال 30 ، كانت 5 فقط صحيحة بالفعل.

بشكل عام ، لا يزال هذا النمط كما هو. في أقل من 10٪ من الحالات ، أعطى LLM إجابة "صحيحة" أو "غير مثالية" أو "مهمة مفقودة". في هذه الحالات ، يظهر السلوك عشوائيا إلى حد ما.

في حوالي ربع الحالات ، يستجيب بالتحقق من صحة "هذا غير صحيح" بينما يتوافق التفسير مع الواقع ، ولا يفعل ذلك إلا من خلال الإشارة إلى ما لا يزيد عن جانب واحد ، مما يقلل من فرصة الخطأ في شيء ما.

وترد النتائج في الجدول 2 أعلاه. لاحظ أنه عندما يزداد معدل الخطأ في المجال ، تنخفض نسبة الهلوسة. أي أنه عندما يكون هناك المزيد من الحواف غير الصحيحة ، فمن المرجح أن يشير النموذج إلى مكان حدوث خطأ ما.

** النقد الذاتي LLM ، الأداء لا يزيد بل ينقص **

في الورقة المقدمة في 12 ، توصل المؤلفون أيضا إلى نفس النتيجة المذكورة أعلاه.

سواء كان التخطيط أو الحساب البسيط أو المنطق ، فإن GPT-4 ، النموذج الكبير الحالي المتطور ، ليس مؤهلا تماما.

قام العديد من الباحثين باستكشافه وتحسينه ، بما في ذلك السماح ل LLM بتعلم التكرار الذاتي والتحقق الذاتي والاستراتيجيات الأخرى لتحسين الأداء.

نتيجة لذلك ، فإن الناس في الصناعة متفائلون بأنه لا يزال من الممكن إنقاذ النموذج الكبير!

ومع ذلك ، فإن تعقيد مهمة الاستدلال بالمعنى الكلاسيكي لا علاقة له بالنموذج الكبير ، لأن LLM هو نموذج يستخدم الاسترجاع التقريبي بدلا من التفكير الدقيق.

في ورقة قدمها arXiv في 12 ، قام باحثو جامعة ولاية أريزونا بتقييم وتحليل قدرة LLM بشكل منهجي على النقد الذاتي في مهام التخطيط والتحسين التكراري.

في الدراسة ، يقترح المؤلفون نظام تخطيط يتضمن المولد LLM والمدقق LLM.

من بينها ، يكون مولد GPT-4 مسؤولا عن إنشاء خطط المرشحين ، ومدقق GPT-4 مسؤول عن التحقق من صحة الخطة وتقديم الملاحظات.

ثم أجرى الباحثون تجارب في مجال تخطيط Blocksworld وأجروا تقييمات تجريبية لما يلي:

  • تأثير النقد الذاتي على أداء الجيل المخطط لنظام LLM + LLM بأكمله

  • أداء المدقق LLM بالنسبة للتحقق من الحقيقة الأرضية ؛

  • عند انتقاد توليد LLM ، يؤثر نفس مستوى التغذية المرتدة على الأداء العام للنظام.

تظهر النتائج أن النقد الذاتي يقلل من أداء توليد تخطيط LLM مقارنة باستخدام مدقق خارجي موثوق.

يمكن أن يعزى تدهور الأداء مباشرة إلى النتائج السيئة للمدقق LLM ، والذي ينتج عددا كبيرا من الإيجابيات الخاطئة ، والتي يمكن أن تضعف بشكل خطير موثوقية النظام.

دقة التصنيف الثنائي للمدقق LLM هي 61٪ فقط ، وهناك عدد كبير من الإيجابيات الخاطئة (الحكم على المخطط الخاطئ على أنه صحيح).

بالإضافة إلى ذلك ، وفقا لمقارنة مستوى تفاصيل التعليقات ، وجد أن لها تأثيرا ضئيلا على أداء توليد التخطيط.

بشكل عام ، يوفر التحقيق المنهجي لهذه الدراسة أدلة أولية تشكك في فعالية LLM كمدقق لمهام التخطيط في إطار تكراري للنقد الذاتي.

نبذة عن الكاتب

سوباراو كامبامباتي

سوباراو كامبهامباتي أستاذ علوم الكمبيوتر في جامعة ولاية أريزونا. يبحث كامبامباتي في القضايا الأساسية في التخطيط وصنع القرار ، لا سيما مدفوعا بتحديات أنظمة الذكاء الاصطناعي للإدراك البشري.

موارد:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت