النموذج اللغوي به عيوب كبيرة، وقد تبين أن استنتاج المعرفة يمثل مشكلة طويلة الأمد

اكتشاف مفاجئ: النماذج الكبيرة بها عيوب خطيرة في استنتاج المعرفة.

التطبيق المرن للمعرفة هو مفتاح الحكمة. يمكن للعقل البشري معالجة المعرفة بسرعة، مثل الإجابة بسرعة على "كم عدد الكلمات الموجودة في "أفكار الليل الصامت"". فهل يمكن إجراء عمليات مماثلة على النماذج الكبيرة؟ ومن المعروف أن العارضات الكبيرات بإمكانهن أولاً كتابة "خواطر ليلية صامتة" بصمت من خلال سلسلة الأفكار (CoT)، ومن ثم الإجابة على الأسئلة بناءً على المحتوى المكتوب، لكن هذا سيجعل النص الناتج طويلاً. في المقابل، يمكن للبشر إكمال استنتاجات معرفية بسيطة في أدمغتهم دون كتابة الخطوات المتوسطة. إذًا، هل يمكن لنموذج لغوي كبير جدًا أن يولد الإجابات مباشرة في دماغه الاصطناعي دون الحاجة إلى كتابة نقاط المعرفة أولاً؟

** تبين أن الجواب هو لا! يوضح الشكل 1/2/3 العديد من الأمثلة المضادة على GPT4. حتى التصنيف الأساسي (مثل تحديد التكافؤ في تاريخ ميلاد أحد المشاهير) والمقارنة (مثل مقارنة تاريخ ميلاد رئيسين) يحتاج إلى المرور عبر سلسلة الأفكار. والأسوأ من ذلك أن النماذج الكبيرة تكاد تكون غير قادرة تمامًا على استخلاص المعرفة بشكل عكسي من مجموعة التدريب. **

الشكل 1: يرتكب GPT4 أخطاء في تصنيف/مقارنة المعرفة، ولكن يمكن الحصول على الإجابة الصحيحة من خلال سلسلة التفكير

الشكل 2: مثال لخطأ البحث العكسي للمعرفة بـ GPT4

*الشكل 3: على الرغم من أن GPT4 يمكنه الإجابة بشكل صحيح على "متى يكون عيد ميلاد شخص ما" و"هل رقم معين زوجي؟"، عند الجمع بين الاثنين، يكون المعدل الصحيح 50% فقط بدون سلسلة التفكير (CoT). عند مقارنة أعياد ميلاد المشاهير من عام 1900 إلى عام 1910، يكون الأداء أيضًا قريبًا من التخمين الأعمى. *

أحدث بحث بعنوان "فيزياء نموذج اللغة الجزء 3.2: التلاعب بالمعرفة" بقلم Zhu Zeyuan (MetaAI) وLi Yuanzhi (MBZUAI) يركز على القضايا المذكورة أعلاه.

عنوان الورقة:

اسمحوا لي أن أطرح سؤالاً أولاً، بالنسبة لمشاكل مثل الأشكال 1/2/3، هل يرجع ذلك إلى أن GPT4 لا يتذكر أعياد ميلاد الأشخاص بدقة كافية (نسبة الضغط ليست كافية، وفقدان التدريب ليس منخفضًا بدرجة كافية)، أم أنه يفعل ذلك؟ هل تفشل في تعميق فهمها للتكافؤ من خلال الضبط الدقيق؟ هل من الممكن ضبط GPT4 بحيث يمكنه دمج المعرفة الموجودة داخل النموذج لتوليد معرفة جديدة مثل "تكافؤ عيد الميلاد"، وبالتالي الإجابة مباشرة على الأسئلة ذات الصلة دون الاعتماد على CoT؟ نظرًا لأننا لا نعرف مجموعة بيانات التدريب الخاصة بـ GPT4، فلا يمكننا ضبطها بشكل دقيق. ولذلك، يقترح المؤلف استخدام مجموعات تدريب يمكن التحكم فيها لمواصلة دراسة قدرة "استنتاج المعرفة" للنماذج اللغوية.

الشكل 4: بالنسبة للنماذج المدربة مسبقًا مثل GPT4، نظرًا لطبيعة بيانات الإنترنت التي لا يمكن التحكم فيها، فمن الصعب تحديد ما إذا كانت حالات B/C/D ستحدث

في "فيزياء نموذج اللغة الجزء 3.1: تخزين المعرفة واسترجاعها"، أنشأ المؤلف مجموعة بيانات تحتوي على 100 ألف سيرة ذاتية. تتضمن كل سيرة ذاتية اسم الشخص وستة صفات: تاريخ الميلاد، مكان الميلاد، التخصص الجامعي، الاسم الجامعي، مكان العمل، ووحدة العمل. على سبيل المثال:

「أنيا براير فورجر نشأت من برينستون، نيوجيرسي. كرست دراستها للاتصالات. اكتسبت خبرة عملية في مينلو بارك، كاليفورنيا. طورت حياتها المهنية في Meta Platforms. لقد جاءت إلى هذا العالم في 2 أكتوبر 1996. وتابعت الدورات الدراسية المتقدمة في معهد ماساتشوستس للتكنولوجيا.

تأكد المؤلفون من تنوع إدخالات السيرة الذاتية لمساعدة النموذج في الوصول إلى المعرفة بشكل أفضل. بعد التدريب المسبق، يمكن للنموذج الإجابة بدقة على أسئلة استخلاص المعرفة مثل "متى عيد ميلاد أنيا" من خلال الضبط الدقيق (معدل الدقة يقترب من 100%)

بعد ذلك، واصل المؤلف الضبط، محاولًا جعل النموذج يتعلم مشاكل استنتاج المعرفة، مثل تصنيف المعرفة/المقارنة/الجمع والطرح. وجدت المقالة أن نماذج اللغة الطبيعية لديها قدرات محدودة للغاية في استنتاج المعرفة، ومن الصعب توليد معرفة جديدة من خلال الضبط الدقيق، حتى لو كانت مجرد تحويلات/مجموعات بسيطة من المعرفة التي أتقنها النموذج بالفعل. **

الشكل 5: إذا لم يتم استخدام CoT أثناء الضبط الدقيق، فإن السماح للنموذج بتصنيف/مقارنة/طرح المعرفة سيتطلب عددًا كبيرًا من العينات وإلا ستكون الدقة منخفضة للغاية - تم استخدام 100 تخصص في التجربة

كما هو موضح في الشكل 5، وجد المؤلف أنه على الرغم من أن النموذج يمكنه الإجابة بدقة على أعياد ميلاد الجميع بعد التدريب المسبق (معدل الدقة قريب من 100%)، إلا أنه يحتاج إلى ضبط دقيق للإجابة على "هل شهر ميلاد xxx رقم زوجي؟" وتحقيق معدل دقة يبلغ 75% - لا تنس أن التخمين الأعمى يتمتع بمعدل دقة يبلغ 50% - يتطلب ما لا يقل عن 10000 عينة ضبط دقيقة. بالمقارنة، إذا كان النموذج قادرًا على إكمال مجموعة المعرفة بين "عيد الميلاد" و"التكافؤ" بشكل صحيح، فوفقًا لنظرية التعلم الآلي التقليدية، يحتاج النموذج فقط إلى تعلم التصنيف لمدة 12 شهرًا، وعادةً ما تكون حوالي 100 عينة كافية!

وبالمثل، بعد التدريب المسبق، يمكن للنموذج الإجابة بدقة على تخصص كل شخص (إجمالي 100 تخصص مختلف)، ولكن حتى لو تم استخدام 50000 عينة ضبط دقيقة لمقارنة "أيهما أفضل، تخصص أنيا أم تخصص سابرينا"، فإن الدقة المعدل هو 53.9% فقط، وهو تخمين أعمى تقريبًا.

ومع ذلك، عندما نستخدم الضبط الدقيق لـ CoT للسماح للنموذج بتعلم جمل مثل "شهر ميلاد أنيا هو أكتوبر، لذا فهو رقم زوجي"، تم تحسين دقة النموذج في الحكم على تكافؤ شهر الميلاد في مجموعة الاختبار بشكل كبير (انظر عمود "اختبار الاستخدام" في عمود الشكل 5 CoT).

حاول المؤلف أيضًا مزج استجابات CoT والاستجابات غير الخاصة بـ CoT في بيانات التدريب الدقيقة، ووجد أن دقة النموذج دون استخدام CoT في مجموعة الاختبار كانت لا تزال منخفضة جدًا (راجع عمود "الاختبار بدون CoT" في الشكل 5). يوضح هذا أنه حتى لو تمت إضافة ما يكفي من بيانات الضبط الدقيق لـ CoT، فإن النموذج لا يزال غير قادر على تعلم "التفكير داخل الرأس" والإبلاغ مباشرة عن الإجابة.

تظهر هذه النتائج أنه من الصعب للغاية على النماذج اللغوية إجراء عمليات معرفية بسيطة! يجب أن يقوم النموذج أولا بتدوين نقاط المعرفة ومن ثم إجراء الحسابات. ولا يمكن تشغيله مباشرة في الدماغ مثل الإنسان. وحتى بعد الضبط الدقيق الكافي، فإنه لن يساعد. **

تحديات البحث العكسي عن المعرفة

وجدت المقالة أيضًا أن نماذج اللغة الطبيعية لا يمكنها البحث بشكل عكسي عن المعرفة المكتسبة. ورغم أنه يستطيع الإجابة على كافة المعلومات المتعلقة بالشخص، إلا أنه لا يستطيع تحديد اسم الشخص بناءً على هذه المعلومات.

كما هو الحال مع تصنيف/مقارنة المعرفة، أجرى المؤلف تجارب على GPT3.5/4 ووجد أن أدائها ضعيف في استخلاص المعرفة العكسي (انظر الشكل 6). ومع ذلك، نظرًا لأننا لا نستطيع تحديد مجموعة التدريب الخاصة بـ GPT3.5/4، فإن هذا لا يثبت أن جميع النماذج اللغوية تعاني من هذه المشكلة.

*الشكل 6: مقارنة البحث المعرفي الأمامي/العكسي لـ GPT3.5/4. وقد لاحظ عمل "عكس اللعنة" (arxiv 2309.12288) الذي أبلغنا عنه قبل بضعة أيام هذا أيضًا على النماذج الكبيرة الموجودة. *

استخدم المؤلف مجموعة بيانات السيرة الذاتية المذكورة أعلاه لإجراء تجربة أكثر تعمقًا على إمكانات البحث العكسي عن المعرفة للنموذج. وبما أن أسماء جميع السير الذاتية موجودة في بداية الفقرة، فقد صمم المؤلف 10 مسائل لاستخراج المعلومات العكسية، مثل:

"من فضلك قل لي اسم الشخص الذي ولد في 2 أكتوبر 1996 في برينستون، نيوجيرسي؟"

"من فضلك قل لي اسم الشخص الذي درس الاتصالات في معهد ماساتشوستس للتكنولوجيا، وولد في 2 أكتوبر 1996 في برينستون، نيوجيرسي، ويعمل في ميتا بلاتفورمز في مينلو بارك، كاليفورنيا؟"

الشكل 7: تجربة منضبطة على مجموعة بيانات السيرة الذاتية للمشاهير

تحقق المؤلف من أنه على الرغم من أن النموذج حقق ضغطًا معرفيًا بدون فقدان وتعزيزًا كافيًا للمعرفة، وتمكن من استخلاص هذه المعرفة بشكل صحيح بنسبة 100% تقريبًا، إلا أنه بعد الضبط الدقيق، ظل النموذج غير قادر على إجراء بحث عكسي للمعرفة، وكانت الدقة صفر تقريبًا ( انظر الشكل 7). ومع ذلك، بمجرد ظهور المعرفة العكسية مباشرة في مجموعة التدريب المسبق، ترتفع دقة البحث العكسي على الفور.

لتلخيص ذلك، فقط عندما يتم تضمين المعرفة العكسية مباشرة في بيانات ما قبل التدريب، يمكن للنموذج الإجابة على السؤال العكسي من خلال الضبط الدقيق - ولكن هذا في الواقع غش، لأنه إذا تم عكس المعرفة، فلن تعد "المعرفة العكسية" يبحث". إذا كانت مجموعة التدريب المسبق تحتوي فقط على المعرفة المتقدمة، فلن يتمكن النموذج من إتقان القدرة على الإجابة على الأسئلة بشكل عكسي من خلال الضبط الدقيق. ولذلك فإن استخدام النماذج اللغوية لفهرسة المعرفة (قاعدة بيانات المعرفة) يبدو مستحيلاً في الوقت الحالي. **

بالإضافة إلى ذلك، قد يعتقد بعض الأشخاص أن فشل "البحث العكسي عن المعرفة" المذكور أعلاه قد يكون بسبب الطبيعة الأحادية الاتجاه لنماذج اللغة الانحدارية الذاتية مثل GPT. ولكن في الواقع، فإن نماذج اللغة ثنائية الاتجاه مثل BERT تؤدي أداءً أسوأ في استخلاص المعرفة، بل وتفشل في الاستخراج الأمامي. يمكن للقراء المهتمين الرجوع إلى الورقة للحصول على التفاصيل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت