القراءة لا تعني الفهم والتحليل المتعمق لتخزين المعرفة واستخلاصها خلف النماذج الكبيرة

المصدر: قلب الآلة

ومع زيادة حجم النموذج، يبدأ الأشخاص في استكشاف كيف يمكن للنماذج الكبيرة أن تتقن قدرًا كبيرًا من المعرفة. أحد الآراء هو أن هذا يرجع إلى "الضغط بدون فقدان البيانات"، أي أن النموذج يخضع لتدريب مكثف ويحفظ المزيد من المحتوى لتحسين دقة التنبؤ. ولكن هل يمكن لـ "الضغط بدون فقدان البيانات" أن يسمح للنماذج الكبيرة بفهم هذه المعرفة؟ ** يستكشف أحدث بحث بعنوان "فيزياء نموذج اللغة الجزء 3.1: تخزين المعرفة واسترجاعها" بقلم Zhu Zeyuan (MetaAI) وLi Yuanzhi (MBZUAI) هذه المشكلة بعمق**.

عنوان الورقة:

أما بالنسبة للإنسان، فهناك مقولة "اقرأ الكتاب مائة مرة، وسيظهر معناه من تلقاء نفسه". على الرغم من أن هذه الجملة لا تنطبق على جميع المعارف، بالنسبة للمعرفة البسيطة، طالما أننا نستطيع تذكر الكتب ذات الصلة، يمكننا بسهولة الإجابة على الأسئلة ذات الصلة. على سبيل المثال، طالما أننا نتذكر القصيدة القديمة "خواطر الليل الصامت"، يمكننا بسهولة الإجابة على "ما الذي يقارن به ضوء القمر في القصيدة؟"؛ طالما أننا نتذكر الفقرة حول "تشو شي بياو / الخلفية الإبداعية" في موسوعة بايدو، يمكننا الإجابة بسهولة على "Chu Shi Biao" متى تم الخلق؟ فهل يمكن للنماذج الأكبر أن تفعل الشيء نفسه؟

الشكل 1: بعض الأمثلة على استخراج المعرفة بواسطة GPT-4 (الصورة اليسرى هي ChatGPT، والصورة اليمنى هي API)

على الرغم من أن GPT-4 يمكنه فهم وتكرار الفقرات المتعلقة بالسؤال، فلماذا لا يستطيع الإجابة على الأسئلة البسيطة مثل البشر؟ هل لأن النموذج ليس كبيرًا بما يكفي، أو أن الذاكرة غير كافية، أو أن الضبط الدقيق بعد التدريب ليس كافيًا؟ لا! يشير المقال إلى أنه حتى لو كان نموذج اللغة الطبيعية كبيرًا بما فيه الكفاية، وتم تدريبه لفترة كافية، وضبطه بشكل كافٍ، فقد لا يزال غير قادر على الإجابة على الأسئلة التي يعتقد البشر أنها بسيطة. السبب الأساسي لذلك يتعلق بالطريقة التي يتم بها تقديم المعرفة في بيانات ما قبل التدريب. يجب أن تظهر نفس المعرفة عدة مرات في مجموعة بيانات ما قبل التدريب وأن تحتوي على ما يكفي من "التنوع" لتسهيل استخلاصها بعد الضبط الدقيق.

ولتأكيد ذلك، قام المؤلفان بإنشاء مجموعة بيانات تحتوي على 100 ألف سيرة ذاتية، ولكل شخصية مدخل سيرة ذاتية يحتوي على اسم الشخص وست سمات ثابتة: تاريخ الميلاد، ومكان الميلاد، والتخصص الجامعي، واسم الجامعة، ومكان العمل، وصاحب العمل. لقد صمموا مجموعتين من البيانات، BioS وBioR، وتم اختيار كل جملة من BioS من 50 قالبًا ثابتًا، وتمت إعادة كتابة BioR باستخدام LLaMA-30B، وهو أكثر واقعية وتنوعًا. نتائج مجموعتي البيانات متسقة، وبأخذ BioS كمثال، يظهر أدناه نموذج إدخال:

ولدت أنيا براير فورجر في 2 أكتوبر 1996. وأمضت سنواتها الأولى في برينستون، نيوجيرسي. تلقت الإرشاد والتوجيه من أعضاء هيئة التدريس في معهد ماساتشوستس للتكنولوجيا. أكملت تعليمها مع التركيز على الاتصالات. كان لها دور احترافي في Meta Platforms. كانت تعمل في مينلو بارك، كاليفورنيا.

الشكل 2

حتى لو تم تدريب نموذج اللغة الطبيعية بشكل مثالي (مُدرب مسبقًا) على 100 ألف سيرة ذاتية شخصية، فلن يتمكن من الإجابة بدقة على السؤال "ما هي المدرسة التي التحقت بها آنيا للدراسة الجامعية" من خلال الضبط الدقيق لضمان الجودة (الضبط الدقيق). كما هو موضح في الشكل 2، حتى لو تم استخدام 50 ألف شخص كبيانات تدريب لضبط ضمان الجودة وتجربة طرق ضبط مختلفة، بما في ذلك LoRA، فإن دقة النموذج على الـ 50 ألف شخص المتبقين تبلغ 10٪ فقط. على الرغم من استخدام نموذج 682M (أكبر بـ 7000 مرة من عدد الأشخاص) وتدريبه 1350 مرة، حتى أن المؤلف أضاف بيانات قياسية للتدريب المسبق على البرمجة اللغوية العصبية مثل WikiBook، إلا أن معدل الدقة لم يتحسن. ويمكن ملاحظة أن "المعجزات بقوة عظيمة" لم تحدث.

لذلك، لا تلتقط النماذج الكبيرة بالضرورة أو تستخرج معرفة "الضغط بدون فقدان البيانات". فكيف يتقن GPT-4 المعرفة؟ من أجل دراسة هذه المشكلة، قام المؤلفان بإجراء تغييرات على مجموعة التدريب المسبق - أطلق عليها المؤلفون تعزيز المعرفة:

  1. التنوع - multiM: إنشاء إدخالات سيرة ذاتية M لكل شخص، باستخدام لغات سردية مختلفة مع الاحتفاظ بنفس المعلومات (يوجد إجمالي 100 طريقة سردية لكل جملة، وكل جملة في كل سيرة ذاتية تختار واحدة منها)

  2. الترتيب العشوائي - التبديل: ترتيب جمل السيرة الذاتية بشكل عشوائي

  3. الاسم الكامل - الاسم الكامل: استبدال جميع الضمائر والألقاب والأسماء الأولى في السيرة الذاتية بالاسم الكامل

أطلق الباحثون على مجموعة البيانات الأصلية اسم "bioS" منفردًا، واختبروا 15 مجموعة من التحسينات المعرفية. على سبيل المثال، يعني bioS multi5+permute أن كل شخص لديه 5 سير ذاتية، ويتم تعطيل ترتيب الكلمات. فيما يلي مثال على BIOS multi5+permute:

نشأت أنيا براير فورجر من برينستون، نيوجيرسي. كرست دراستها للاتصالات. اكتسبت خبرة عملية في مينلو بارك، كاليفورنيا. طورت حياتها المهنية في Meta Platforms. لقد ولدت في 2 أكتوبر 1996. وتابعت الدورات الدراسية المتقدمة في معهد ماساتشوستس للتكنولوجيا.

بالنسبة لكل من البشر والنماذج الكبيرة، تذكر أن BIOS الفردي وbioS multi5+permute متساويان تقريبًا في الصعوبة (لهما نفس القدر من المعلومات، ويتم تحديد كل جملة من 50 قالبًا). لذا، إذا تم تنفيذ التدريب المسبق على مجموعة البيانات الجديدة المعززة بالمعرفة ثم تم ضبط ضمان الجودة بشكل دقيق، فهل سيكون هناك أي أداء جديد؟

الصورة 3

يوضح الشكل 3 أن معدل دقة ضمان الجودة لنموذج BIOS الفردي المُدرب مسبقًا يبلغ 9.7% فقط، في حين أن معدل دقة نموذج bioS multi5+permute المُدرب مسبقًا يصل إلى 96.6%. هذا التحسن الكبير لا علاقة له بضبط النموذج أو حجمه أو وقت التدريب، ولكن بكيفية تقديم المعرفة في التدريب المسبق، أي كيفية "تلاوة" المعرفة بواسطة النموذج الكبير.

وجدت الدراسة أيضًا أنه من خلال تقسيم السير الذاتية إلى مشاهير ومجموعات أقليات، طالما أن سيرة المشاهير بها تعزيز معرفي، حتى لو لم تكن مجموعة الأقلية كذلك، فإن دقة استخلاص المعرفة من النموذج لمجموعة الأقلية ستتحسن بشكل كبير - بالطبع ، الأفضل لا يزال التأثير يتطلب تعزيز المعرفة بجميع البيانات.

الشكل 4: ببساطة من خلال زيادة تنوع بيانات التدريب للمشاهير، ترتفع دقة استخلاص المعرفة لمجموعات الأقليات

فلماذا تختلف قدرة النموذج على الإجابة على الأسئلة بشكل كبير بعد قراءة بيانات مختلفة؟ لماذا يمكن للتلاوة المتكررة لسير حياة المشاهير أن تعزز القدرة على استخلاص المعرفة لدى مجموعات الأقليات؟ والسبب هو أن النماذج تعتمد أساليب ذاكرة مختلفة.

يستكشف المؤلف بعمق مبدأ معرفة الذاكرة للنموذج من خلال تحقيقين خطيين. دعونا نلقي نظرة على طريقة واحدة تسمى P-probing.

في P-probe، نقوم بإدخال إدخالات السيرة الذاتية في النموذج المُدرب مسبقًا وندرب مصنفًا خطيًا للتنبؤ بست سمات مستهدفة (مثل الجامعة والتخصص وما إلى ذلك). أردنا أن نرى ما إذا كان النموذج يمكنه استخراج هذه المعلومات قبل السمات. إذا أظهر المصنف دقة عالية لـ "وحدة العمل" مباشرة بعد اسم الشخص، فهذا يعني أن النموذج تعلم مباشرة أن "صاحب عمل آنيا هو ميتا". إذا تم تحقيق الدقة العالية فقط في نهاية السيرة الذاتية، فمن المحتمل أن النموذج يستخدم طريقة ذاكرة معيبة، مثل "عيد ميلاد شخص ما هو 2 أكتوبر 1996، والجامعة هي معهد ماساتشوستس للتكنولوجيا، وبالتالي فإن صاحب العمل هو ميتا".

التصميم التجريبي للمسبار P هو كما يلي. ابحث عن المواضع في كل سيرة ذاتية حيث تظهر السمات الست لأول مرة، ثم قم بتدريب مصنف خطي للتنبؤ بكل سمة مستهدفة في الموضع الذي يسبق هذه المواضع مباشرة. وقد أدى ذلك إلى 36 مهمة تصنيف.

*الشكل 5: تظهر نتائج اختبار مسبار P أن تعزيز المعرفة في مجموعة بيانات ما قبل التدريب يتسبب في تخزين المعرفة في مواقع سابقة، بل ويتم تخزين بعضها مباشرة على أسماء الأشخاص. ما إذا كان النموذج يمكنه الإجابة على الأسئلة من خلال الضبط الدقيق يرتبط بما إذا كانت المعلومات مخزنة مباشرة على اسم الشخص أثناء التدريب المسبق (قارن الشكل 3 والشكل 5). *

تظهر نتائج اختبار P-probe أن نموذج اللغة الطبيعية يمكنه تذكر المعلومات من خلال أسماء الأشخاص لتحقيق الضغط أثناء التدريب المسبق، ويمكنه أيضًا استخدام معلومات أخرى (مثل "وحدة عمل الشخص الذي درس في معهد ماساتشوستس للتكنولوجيا والذي عيد الميلاد هو 2 أكتوبر 1996 هو ...") الذاكرة. على الرغم من أن طريقة الذاكرة الثانية "غير طبيعية" بالنسبة للبشر، إلا أن نسب الضغط للطريقتين هي نفسها بالنسبة للنموذج. إذا استخدم النموذج الطريقة الثانية لتذكر المعلومات، فلن يتمكن من الإجابة على الأسئلة من خلال الضبط الدقيق بعد التدريب. من خلال تعزيز المعرفة، سيميل النموذج المُدرب مسبقًا تدريجيًا إلى تعلم كيفية استخدام طريقة الذاكرة الأولى.

قد يجادل المرء بأن فشل "استخراج المعرفة" المذكور أعلاه قد يكون بسبب طبيعة الاتجاه الواحد لنماذج اللغة الانحدارية الذاتية مثل GPT. في الواقع، تعتبر نماذج اللغة ثنائية الاتجاه مثل BERT أسوأ في استخراج المعرفة، حيث يمكنها فقط تخزين المعرفة متعددة العبارات مثل "Meta Platform" ولكن لا يمكنها استخراجها. ويمكن للقراء المهتمين الرجوع إلى الفصل السادس من الورقة.

بشكل عام، ما إذا كان نموذج اللغة قادرًا على الإجابة على سؤال "استخراج المعرفة" لا يعتمد فقط على "الضغط بدون فقدان البيانات"، ولكن أيضًا على "كيفية الضغط في النموذج". تؤكد الورقة على أنه من الضروري تعزيز المعرفة بالبيانات الرئيسية والنادرة أثناء عملية التدريب المسبق (مثل استخدام ChatGPT لعمليات إعادة الكتابة المتعددة). بدون هذه الخطوة، بغض النظر عن مدى صعوبة العمل على الضبط الدقيق، على الرغم من أن النموذج الذي تم تدريبه مسبقًا قد قام بضغط بيانات التدريب دون فقدان البيانات، إلا أنه قد لا يزال غير قادر على استخراج تلك المعرفة!

خاتمة

كيف نفهم كيفية عمل نماذج اللغة الطبيعية؟ ويتكهن معظم الباحثين بقدراته من خلال التحدث إلى نماذج مثل GPT-4. ومع ذلك، اقترح مؤلف سلسلة الأوراق "Language Model Physics" طريقة أكثر دقة لاستكشاف الآلية الداخلية للمحول وشرح قدرته على التعامل مع مهام الذكاء الاصطناعي من خلال بيانات التدريب المصممة بعناية والتجارب الخاضعة للرقابة.

في "الجزء 3.1: تخزين المعرفة واستخراجها"، اختبر المؤلف بدقة استجابة النموذج للبيانات المختلفة ووجد العلاقة الدقيقة بين المعرفة والقدرة على التعلم للنموذج وبيانات التدريب.

كما أصدروا "الجزء 3.2: تشغيل المعرفة" لمواصلة دراسة كيفية تشغيل النموذج للمعرفة في مواقف محددة. على سبيل المثال، إذا كان النموذج الكبير يتذكر "Silent Night Thoughts"، فهل يمكن ضبطه لاستنتاج أن الجملة الأخيرة من "Quiet Night Thinkts" هي "أحني رأسك وافتقد مسقط رأسك"؟ وسنوافيكم بتقارير المتابعة قريبا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت