ميتا برينستون يقترح الحل النهائي لسياق LLM! دع النموذج يصبح عاملا مستقلا واقرأ شجرة عقدة السياق بنفسه

المصدر الأصلي: شين جي يوان

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

ما هو الحل النهائي لنماذج السياق الطويل LLM؟

الحل الذي اقترحه مؤخرا باحثون في جامعة برينستون و Meta الذكاء الاصطناعي هو التفكير في LLM كعامل تفاعلي يتيح له تحديد كيفية قراءة النص من خلال المطالبات التكرارية.

عنوان الورقة:

لقد صمموا نظاما يسمى MemWalker يمكنه معالجة السياقات الطويلة في شجرة من العقد الموجزة.

عند تلقي استعلام، يمكن للنموذج استرداد شجرة العقدة هذه للعثور على المعلومات ذات الصلة والاستجابة عند جمع معلومات كافية. في مهام الإجابة على الأسئلة النصية الطويلة ، تكون هذه الطريقة أفضل بكثير من طريقة خط الأساس باستخدام نوافذ السياق الطويلة والعودية والاسترجاع.

كما غرد LeCun دعما لأبحاثهم.

يتكون MemWalker من جزأين رئيسيين:

تحتاج أولا إلى بناء شجرة الذاكرة:

تقطيع النص الطويل إلى عقد ملخصة. يتم تلخيص العقد التراكمية بشكل أكبر في العقد ذات المستوى الأعلى ، وأخيرا تصل إلى الجذر.

الجزء الثاني هو الملاحة:

بعد قبول الاستعلام ، يتنقل LLM عبر الشجرة للعثور على المعلومات ذات الصلة والاستجابة بشكل مناسب. تنجز LLM هذه العملية من خلال التفكير - ربما تعمل على إيجاد إجابة ، أو اختيار المضي قدما في مسار واحد ، أو تجد نفسها مضللة وتتراجع بنفس الطريقة.

يمكن تنفيذ عملية التنقل هذه باستخدام مطالبات بدون عينة ويمكن تكييفها بسهولة مع أي من نماذج اللغات الكبيرة المحددة.

أظهر فريق البحث أنه من خلال القراءة التفاعلية لشجرة الذاكرة التي أنشأها هذا النموذج ، تفوق MemWalker على خطوط الأساس الأخرى للسياق الطويل ومتغيرات الاسترجاع والحلقة ، خاصة بالنسبة للأمثلة الأطول.

تعتمد فعالية MemWalker على جزأين رئيسيين:

  1. حجم الذاكرة العاملة - يتمتع LLM بقدرات سياق عالمية أفضل عند السماح ل LLM بالحصول على مزيد من المعلومات على طول المسار الذي يسترده.

2) القدرة المنطقية ل LLM - عندما يصل LLM إلى عتبة الاستدلال ، يكون MemWalker فعالا. عندما تكون قدرة الاستدلال أقل من الحد الأدنى ، يكون معدل الخطأ أثناء التنقل مرتفعا.

ميمووكر: قارئ تفاعلي**

يبحث فريق البحث في المهام المتعلقة بالإجابة على أسئلة السياق الطويل - بالنظر إلى النص الطويل x والاستعلام q ، فإن الهدف من النموذج هو إنشاء استجابة r.

يتبع MEMWALKER خطوتين:

  1. بناء شجرة الذاكرة ، حيث يتم تقسيم السياقات الطويلة إلى هياكل بيانات على شكل شجرة. لا يعتمد هذا البناء على الاستعلامات ، لذلك إذا كانت هناك بيانات تسلسل مسبقا ، فيمكن حسابها مسبقا.

  2. التنقل ، حيث يتنقل النموذج في هذا الهيكل عندما يتلقى استعلاما ، ويجمع المعلومات لصياغة استجابة مناسبة.

يفترض MEMWALKER الوصول إلى LLM الأساسي وينفذ البناء والتنقل من خلال التكرار على مطالبات LLM.

ملاحة

بعد تلقي الاستعلام Q ، تتم إزالة نموذج اللغة من العقدة الجذر

ابدأ في التنقل في الشجرة لإنشاء استجابة.

اجتازت العقدة في LLM

، فإنه يلاحظ المستوى التالي من العقد

ملخص ل .

قررت ماجستير في القانون في

+ اختر واحدا من 1 إجراءات - حدد عقدة تابعة لمزيد من الفحص ، أو ارجع إلى العقدة الأصلية.

في عقدة ورقة

يمكن ل LLM اتخاذ قرار بشأن أحد الإجراءين: إرسال عقدة الورقة والرد على الاستعلام ، أو إذا كانت عقدة الورقة تحتوي على معلومات

(أي

) لا يكفي ، ارجع إلى العقدة الأصل

لاتخاذ قرارات التنقل ، يمكن لفريق البحث أيضا أن يطلب من LLM أولا إنشاء مبرر باللغة الطبيعية عن طريق دفع الإجراء ، متبوعا باختيار الإجراء نفسه.

على وجه التحديد ، في كل عقدة ، يولد النموذج استجابة r ∼ LLM (r | s ، q) ، حيث تكون الاستجابة واحدة من مجموعتين: 1) r = (الاستدلال ، الإجراء ، الإجابة) عندما يكون LLM في عقدة ورقة أو 2) r = (المنطق ، الإجراء) عندما يكون LLM في عقدة غير ورقية.

** تصميم نصائح الملاحة **

قام فريق البحث بتمكين التنقل في LLM مع مطالبات عينة صفرية. هناك نوعان من النصائح التي تحتاجها:

  1. نصائح الفرز و 2) نصائح الأوراق (مظللة في الجدول أدناه).

تحتوي مطالبة الفرز على الاستعلام وملخص العقد التابعة والإرشادات التي يجب أن يتبعها LLM. تستخدم نصائح الفرز للعقد غير الورقية.

تحتوي مطالبة الورقة على محتوى الفقرة والاستعلامات (والخيارات) والإرشادات التي تتطلب من LLM إنشاء إجابة أو العودة إلى العقدة الأصلية.

تحدد كل من نصائح الفرز ونصائح الأوراق تنسيق الإخراج الذي يحتاج LLM إلى اتباعه. يؤدي عدم الالتزام بالتنسيق إلى إجراءات غير صالحة ويجب إعادة إنشاء LLM. إذا فشل LLM في إنتاج مخرجات قابلة للحل ثلاث مرات متتالية ، ينتهي التنقل ويعيد "لا إجابة".

الذاكرة العاملة

عندما ينتهي LLM من استرداد الشجرة ، يمكنه الاحتفاظ بالمعلومات في مسار التنقل وإضافتها إلى السياق.

على وجه الدقة ، يولد LLM استجابة r ∼ LLM (r | s ، q ، m) مع ذاكرة عمل إضافية

إما فارغة أو تحتوي على محتوى من العقد التي تمت زيارتها مسبقا.

قام فريق البحث باقتطاع الذاكرة العاملة بحيث يمكن أن تتناسب مع نافذة سياق LLM.

يوضح الجدول أعلاه أيضا كيفية إضافة ذاكرة عاملة إلى المطالبة عبر الذاكرة العاملة.

التكوين التجريبي

مجموعات البيانات والتقييمات

استخدم فريق البحث ثلاث مجموعات بيانات: QuALITY و SummScreenFD و GovReport ، والتي جاءت من معيار SCROLLS. أظهر فريق البحث دقة جميع مجموعات البيانات.

جودة

QuALITY هي مجموعة بيانات أسئلة وأجوبة متعددة الخيارات.

تحتوي مجموعة البيانات على قصص طويلة من مشروع غوتنبرغ وأسئلة مشروحة من قبل المعلقين البشريين. جرب فريق البحث باستخدام مجموعة فرعية من 187 مثالا.

SummScreenFD

SummScreenFD عبارة عن مجموعة بيانات من البرامج النصية التلفزيونية والسينمائية المصممة أصلا للتلخيص.

يتم تقديم هذه النصوص في شكل حوارات بين الجهات الفاعلة. قام فريق البحث بتحويل مجموعة البيانات هذه إلى مهمة أسئلة وأجوبة ، حيث تم استخدام النص الموجز الأساسي الصادق لإنشاء سؤال "من" باستخدام Stable Beluga 2 ، والذي تم فحصه بعد ذلك بواسطة خبير بشري.

أصبح السؤال المقترن بالنص الطويل الأصلي 306 أمثلة على مهام ضمان الجودة التي تم تغيير موضعها.

تقرير الحكومة

تجمع مجموعة بيانات GovReport وثائق من خدمة أبحاث الكونغرس ومكتب محاسبة الحكومة الأمريكية ، بالإضافة إلى ملخصات مقدمة من الخبراء.

قام فريق البحث بتحويل مجموعة البيانات هذه إلى مجموعة بيانات للأسئلة والأجوبة مع 101 مثالا بنفس طريقة SummScreenFD.

تتميز مجموعات البيانات الثلاث بسياقات طويلة بأطوال مختلفة ، وبعض الأمثلة الأقصر وبعض التسلسلات الأطول.

لذلك ، قدم فريق البحث نتائج على كل من مجموعة البيانات الأصلية ومجموعة فرعية من التسلسلات الأطول الواردة في كل مهمة لتقييم الوصول إلى الذاكرة بشكل أفضل في مواقف السياق الأكثر صعوبة والأطول.

العتبات هي 8,000 رمز مميز ل QuALITY ، و 6,000 رمز مميز ل SummScreenFD ، و 12,000 رمز مميز ل GovReport.

نموذج

استخدم فريق البحث Stable Beluga 2 كماجستير أساسي في معظم تجاربهم لأنه يقدم أداء متطورا مقارنة بالعديد من متغيرات LLM الأخرى ، والتي سيوضحها فريق البحث.

Stable Beluga 2 هو نموذج ضبط تعليمات قائم على 70B LLaMA-2 لا يتداخل فيه الضبط الدقيق مع مهمة تقييم فريق البحث.

يبلغ الحد الأقصى لطول السياق 4,096 رمزا. استخدم فريق البحث النموذج بطريقة صفرية دون مزيد من الضبط أو تقديم عدد صغير من الأمثلة على مهمة فريق البحث في السياق.

استخدم فريق البحث أعلى أخذ العينات p لبناء شجرة الذاكرة بالإضافة إلى الإجراءات والاستدلال لتوليد التنقل.

حدد فريق البحث الحد الأقصى لعدد العقد ل QuALITY و SummScreenFD و GovReport ، maxt Mt = 8 و 5 و 8 و segment size|c | ، على التوالي = 1000 ، 1000 ، 1200。

المعيار

قارن فريق البحث ثلاث تقنيات ذاكرة تعتمد على نفس LLM الأساسي إلى Stable Beluga 2:

  1. نافذة السياق الكامل

  2. العودية

  3. الاسترجاع

يستخدم خط الأساس لنافذة السياق الكامل جميع الرموز المميزة البالغ عددها 4096 لمعالجة نص الإدخال الطويل وتوليده. نظرا لأن الحالات في مجموعة البيانات غالبا ما تتجاوز حدود السياق ، فقد اقتطع فريق البحث الطول ، مع أخذ إما اليمين (الأقرب) أو اليسار (الأقل قربا) من النص كمدخلات ، وتقييم كلتا الطريقتين.

للبحث ، استخدم فريق البحث Contriever (Izacard et al. ، 2022) لاختيار فقرات من سياقات طويلة بناء على الاستفسارات. يتم تسلسل المقاطع ذات أعلى الدرجات في سياق الإدخال الخاص ب LLM حتى تملأ السياق.

أخيرا ، نفذ فريق البحث خطا أساسيا يتكرر عبر الملخص إلى الفقرة الحالية من المعلومات من رموز الفقرة السابقة ، حيث تبلغ كل فقرة 2500 رمز مميز والحد الأقصى لحجم الملخص هو 500 رمز مميز.

النتائج والتحليل

النتائج الرئيسية

ويبين الجدول 2 أدناه مقارنة بين MEMWALKER وخطوط الأساس الأخرى.

تجاوز MEMWALKER بشكل كبير خط الأساس العودية في جميع المهام.

يوضح هذا حدود العودية ، حيث يتم فقد المعلومات ذات الصلة بالاستعلام بعد بضع خطوات.

يذهب MEMWALKER أيضا إلى ما هو أبعد من البحث ، حيث تأتي المقاطع من قصة طويلة متماسكة بدلا من وثيقة منفصلة.

في هذه المهام، يمكن أن يؤدي خط الأساس الكامل للسياق أداء جيدا في إعداد المهمة "الأولية"، والذي قد يحتوي على تسلسلات قصيرة نسبيا، على الرغم من أن اختيار الاقتطاع لليسار أو اليمين للحصول على أفضل أداء يبدو أنه يعتمد على مجموعة البيانات.

ومع ذلك ، باستثناء متغير الاحتفاظ باليمين على QuALITY ومتغير الاحتفاظ باليسار على GovReport ، يحقق MEMWALKER أداء أعلى في الإعداد الأصلي من خط الأساس للسياق الكامل ، والذي قد يكون بسبب التحيز الموضعي في مجموعة البيانات ، حيث تظهر الفقرات ذات الصلة عادة في بداية النص أو نهايته.

ومع ذلك ، في الإصدارات الطويلة من جميع المهام الثلاث ، تجاوز MEMWALKER جميع الخطوط الأساسية ، أي أنه أظهر أداء قويا حيث أصبح الوصول إلى الذاكرة أكثر أهمية.

يتفوق MEMWALKER أيضا على الطرز الأخرى المتاحة للجمهور ، بما في ذلك LongChat و MPT.

يعمل MEMWALKER على تحسين الأداء في التسلسلات الطويلة. قدم فريق البحث تفصيلا لأداء طول تسلسل الإدخال لكل مهمة في الشكل 2 أعلاه.

عندما يكون طول النص أقصر ، يكون MEMWALKER أدنى من خط الأساس للسياق الكامل (الاقتطاع الأيسر أو الأيمن) ، ولكنه يتفوق على كلا نوعي الاقتطاع في التسلسلات الأطول لجميع المهام.

تتمثل فائدة القراءة التفاعلية في أن الزيادة المناسبة في طول النص تصبح واضحة ، أي يتم عرض أداء أفضل بمجرد أن يكون طول التسلسل أكبر بكثير من طول سياق 4,096 LLM.

الاستدلال ضروري للتنقل في شجرة الذاكرة.

تعتمد فعالية MEMWALKER بشكل كبير على القدرات المنطقية للماجستير الأساسي. لكل قرار ملاحة ، استخدم فريق البحث موجه LLM الذي طلب من LLM أولا إنشاء مبرر باللغة الطبيعية لتبرير الإجراء المتوقع التالي ، كما هو موضح في الجدول 1 أدناه.

يوضح فريق البحث في الجدول 3 أدناه كيف يؤثر المنطق على الأداء من خلال مقارنة Llama 2 Chat (متغيرات المعلمات 13B و 70B) مع Stable Beluga 2 (70B) وعن طريق إزالة السطر "تقديم المنطق قبل اتخاذ القرار ..." من الموجه.

بالنسبة للطرز الأصغر والأقل قدرة (13B) ، يتخلف الأداء بشكل كبير عن طرز 70B بسبب عدم القدرة على اتباع التعليمات. والواقع أن اشتراط مبررات الاستدلال على النماذج الأضعف يمكن أن يؤدي إلى تدهور الأداء، ربما لأنها لا تستطيع توليد هذه المبررات والاستفادة منها.

تفوقت Beluga 2 المستقرة على Llama 2 Chat من نفس حجم LLM وأظهرت أيضا قدرات منطقية محسنة.

بالنسبة إلى Stable Beluga 2 ، فإن طلب مبررات منطقية في جميع المهام يحسن الأداء. هذا يسلط الضوء على الميزة الرئيسية ل MEMWALKER: إذا اجتاز LLM عتبة القدرة على التفكير النقدي ، فيمكنه التفكير في المدخلات الطويلة عبر جولات متعددة دون توليد أخطاء بسرعة بين الجولات.

بالنسبة ل LLMs الضعيفة التي تفشل في اتخاذ قرارات تنقل جيدة ، يمكن أن تتراكم الأخطاء ويضعف الأداء العام.

مع استمرار تحسن قدرات التفكير في LLM في السنوات القادمة ، يتوقع فريق البحث أن تصبح طرق مثل MEMWALKER أكثر فعالية.

مطلوب ذاكرة عاملة للتنقل في شجرة الذاكرة. عندما يتخذ MEMWALKER قرارات لاجتياز شجرة الذاكرة وقراءة الفقرات ذات الصلة ، فقد يفقد معرفة السياق العام.

لذلك ، يحمل النموذج معلومات من العقدة على طول مسار التنقل كذاكرة عاملة ، حيث يتم تحديث محتويات الذاكرة العاملة عندما يختار النموذج المسار التالي.

قام فريق البحث بتقييم أداء MEMWALKER مع أو بدون ذاكرة عاملة ، والنتائج موضحة في الشكل 3 أدناه.

وجد فريق البحث أن استنفاد الذاكرة العاملة أدى إلى انخفاض كبير في الأداء في جميع المهام ، مع انخفاض الدقة بنسبة 5-13٪ ، مما يدل على أهمية هذا المكون.

يمكن ل MEMWALKER التعافي من المسار الخطأ.

عندما يتنقل MEMWALKER في شجرة الذاكرة ، فإنه لا يحتاج فقط إلى العثور على طريقه إلى الفقرات الأكثر صلة ، ولكنه قد يحتاج أيضا إلى التعافي من جميع أخطاء الاسترجاع.

يعرض فريق البحث إحصاءات الاسترداد في الجدول 4 أدناه. يقوم MEMWALKER بإجراء عمليات تنقل الاسترداد (وبالتالي يغير المسارات) على ما يقرب من 15٪ - 20٪ من العينات ، ولكن في هذه الأمثلة ، من الممكن استردادها والحصول عليها بشكل صحيح في QuALITY ، و 60٪ ل SummScreenFD ، و ∼ 80٪ ل GovReport.

يتيح MEMWALKER القراءة الفعالة. نظرا لأن MEMWALKER يحدد أجزاء النص الطويل التي يجب قراءتها ، فقد تكون الحمولة التي يجب قراءتها أصغر من التسلسل بأكمله.

يوضح فريق البحث متوسط النسب المئوية لقراءات السياق الطويل لجميع الأمثلة ، كما هو موضح في الشكل 4 أدناه لكل مهمة من المهام الثلاث. وجد فريق البحث أنه ، في المتوسط ، يجب قراءة 63-69٪ فقط من النص للإجابة على الأسئلة ، بما في ذلك محتويات عقد الشجرة.

على طريق النجاح ، يتم تقليل القراءة المطلوبة إلى 59٪ - 64٪.

مقايضات لبناء شجرة الذاكرة

عندما يبني فريق البحث شجرة الذاكرة ، تنشأ مقايضة أساسية - تلخيص فقرات أكبر في العقد لتقليل عمق الشجرة ، ولكن من المحتمل أن تفقد دقة المحتوى.

وبالمثل ، يمكن أن يساعد توصيل العديد من العقد ذات المستوى الأدنى بالعقد أعلاه في تسطيح الشجرة ، ولكنه قد يجعل مهام التنقل LLM على كل عقدة أكثر صعوبة.

يوضح الشكل 5 أدناه أداء التكوينات المختلفة لشجرة الذاكرة على QuALITY. غالبا ما يكون تلخيص الفقرات الأكبر أكثر فائدة من تلخيص الفقرات الأصغر وربط المزيد من العقد الفرعية بالعقدة الأصل.

ومع ذلك ، استقر الأداء مع زيادة الحد الأقصى لعدد العقد ، مما يدل على المفاضلة بين مقدار المعلومات التي يمكن تعبئتها في العقد أثناء إنشاء شجرة الذاكرة.

موارد:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت