يسمح DeepMind للنماذج الكبيرة بتعلم الحث والاستنتاج ، وتتحسن دقة GPT-4 بنسبة 13.7٪

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

في الوقت الحالي ، تظهر نماذج اللغة الكبيرة (LLMs) قدرات رائعة في مهام الاستدلال ، خاصة عند إعطاء أمثلة وخطوات وسيطة. ومع ذلك ، غالبا ما تعتمد الأساليب على المعرفة الضمنية في LLM ، ويعطي LLM إجابات غير صحيحة عندما تكون المعرفة الضمنية خاطئة أو غير متسقة مع المهمة.

الآن ، استكشف باحثون من Google ومعهد ميلا ومؤسسات بحثية أخرى طريقة جديدة للسماح ل LLM بتعلم قواعد الاستدلال واقتراح إطار جديد يسمى Hypotheses-to-Theories (HtT). لا يعمل هذا النهج الجديد على تحسين التفكير متعدد الخطوات فحسب ، بل يتمتع أيضا بمزايا قابلية التفسير وقابلية النقل وما إلى ذلك.

عنوان الورقة:

تظهر التجارب على مشاكل التفكير العددي والعلائقي أن HtT يحسن الأساليب الحالية بدقة أكبر بنسبة 11-27٪. يمكن أيضا نقل القواعد المستفادة إلى نماذج مختلفة أو أشكال مختلفة من نفس المشكلة.

مقدمة في الطريقة

باختصار ، يتكون إطار عمل HtT من مرحلتين - مرحلة استقرائية ومرحلة استنتاجية ، على غرار التدريب والاختبار في التعلم الآلي التقليدي.

في مرحلة الحث ، يطلب من LLM أولا إنشاء قواعد والتحقق من صحتها لمجموعة من أمثلة التدريب. تستخدم الدراسة CoT لإعلان القواعد واشتقاق الإجابات ، والحكم على تواتر ودقة القواعد ، وجمع القواعد التي غالبا ما تظهر وتؤدي إلى إجابات صحيحة لتشكيل قاعدة قواعد.

مع قاعدة قواعد جيدة ، فإن الخطوة التالية هي دراسة كيفية تطبيق هذه القواعد لحل المشكلة. تحقيقا لهذه الغاية ، في المرحلة الاستنتاجية ، تضيف الدراسة قاعدة قاعدة وتطلب من LLM استرداد القواعد من قاعدة القاعدة للخصم ، وتحويل الاستدلال الضمني إلى استدلال صريح.

ومع ذلك ، وجدت الدراسة أنه حتى LLMs القوية جدا ، مثل GPT-4 ، تكافح لاسترداد القواعد الصحيحة في كل خطوة. تحقيقا لهذه الغاية ، طورت الدراسة خدعة وضع علامات XML لتعزيز قدرات استرجاع السياق ل LLM.

النتائج التجريبية

لتقييم HtT ، تم قياس الدراسة مقابل مشكلتين استدلاليتين متعددتي الخطوات. تظهر النتائج التجريبية أن HtT يحسن طريقة العينة الأقل. أجرى المؤلفون أيضا دراسات استئصال مكثفة لتوفير فهم أكثر شمولا ل HtT.

يقومون بتقييم مناهج جديدة لمشاكل التفكير العددي والعلائقي. في التفكير العددي ، لاحظوا تحسنا بنسبة 21.0٪ في الدقة مع GPT-4. في الاستدلال العلائقي ، حسنت GPT-4 الدقة بنسبة 13.7٪ ، بينما استفاد GPT-3.5 أكثر ، مما ضاعف الأداء. يأتي كسب الأداء بشكل رئيسي من الحد من وهم الانتظام.

وعلى وجه التحديد، يبين الجدول 1 أدناه النتائج المتعلقة بمجموعات البيانات الحسابية للأساس 16 والأساس 11 والأساس 9. من بين جميع الأنظمة الأساسية ، يؤدي CoT 0-shot الأسوأ في كل من LLMs.

يعرض الجدول 2 نتائج مقارنة الطرق المختلفة على CLUTRR. يمكن ملاحظة أن CoT 0-shot لديه أسوأ أداء في GPT3.5 و GPT4. بالنسبة لطريقة التلميح قليلة اللقطات ، فإن أداء CoT و LtM مشابه. من حيث متوسط الدقة ، يتفوق HtT باستمرار على طريقة جديلة لكلا النموذجين بنسبة 11.1-27.2٪. تجدر الإشارة إلى أن GPT3.5 ليس سيئا في استرداد قواعد CLUTRR ويستفيد أكثر من HtT من GPT4 ، ربما بسبب وجود قواعد أقل في CLUTRR مقارنة بالحساب.

الجدير بالذكر أنه باستخدام قواعد GPT4 ، يتحسن أداء CoT على GPT3.5 بنسبة 27.2٪ ، وهو أكثر من ضعف أداء CoT وقريب من أداء CoT على GPT4. لذلك ، يعتقد المؤلفون أن HtT يمكن أن يكون بمثابة شكل جديد من أشكال تقطير المعرفة من LLM القوي إلى LLM الضعيف.

يوضح الجدول 3 أن HtT يحسن بشكل كبير أداء GPT-4 (الإصدار النصي). بالنسبة ل GPT3.5 ، هذا التحسين ليس مهما ، لأنه غالبا ما ينتج أخطاء بخلاف وهم القواعد عند معالجة إدخال النص.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت