إذا كنت تريد للنموذج الكبير أن يتعلم المزيد من الأمثلة في _، فإن هذه الطريقة تسمح لك بإدخال المزيد من الأحرف

نحن نعلم أنه عند استخدام نماذج لغة كبيرة مثل GPT وLLaMA، يكون هناك حد لعدد الأحرف المسموح به للإدخال. على سبيل المثال، الحد الأقصى لعدد أحرف الإدخال الحالي لـ ChatGPT هو 4096 حرفًا. وهذا يحد من نطاق التقنيات مثل التعلم السياقي وتسلسل الأفكار، حيث لا يمكن للمستخدمين سوى تقديم عدد محدود من الأمثلة. مؤخرًا، اقترح فريق بحث من Nous Research وEleutherAI وجامعة جنيف YaRN، وهو حل لتوسيع نافذة السياق، وحققوا نتائج أفضل من جميع الطرق الأخرى في التجارب، كما أطلقوا LLaMA 2 مضبوطًا بدقة باستخدام YaRN 7B/ نموذج 13B مع نوافذ سياقية بحجم 64 كيلو بايت و128 كيلو بايت.

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

أثبتت نماذج اللغة الكبيرة القائمة على المحولات (LLM) قدرتها القوية على أداء التعلم السياقي (ICL) وأصبحت تقريبًا الخيار الوحيد للعديد من مهام معالجة اللغة الطبيعية (NLP). تتيح آلية الاهتمام الذاتي الخاصة بالمحول أن يكون التدريب متوازيًا بدرجة كبيرة، مما يسمح بمعالجة التسلسلات الطويلة بطريقة موزعة. يُطلق على طول التسلسل المستخدم في تدريب LLM نافذة السياق الخاصة به.

تحدد نافذة سياق المحول بشكل مباشر مقدار المساحة التي يمكن أن توفر أمثلة، مما يحد من إمكانيات ICL الخاصة به.

إذا كانت نافذة سياق النموذج محدودة، فهناك مساحة أقل لتزويد النموذج بأمثلة قوية لإجراء ICL عليها. علاوة على ذلك، يتم أيضًا إعاقة المهام الأخرى مثل التلخيص بشدة عندما تكون نافذة سياق النموذج قصيرة بشكل خاص.

نظرًا لطبيعة اللغة نفسها، يعد موقع الرموز المميزة أمرًا بالغ الأهمية للنمذجة الفعالة، ولا يقوم الاهتمام الذاتي بتشفير معلومات الموقع مباشرة بسبب توازيها. تقدم بنية المحولات التشفير الموضعي لحل هذه المشكلة.

استخدمت بنية المحولات الأصلية ترميز الموضع الجيبي المطلق، والذي تم تحسينه لاحقًا إلى ترميز موضع مطلق قابل للتعلم. ومنذ ذلك الحين، أدت أنظمة ترميز الموضع النسبي إلى تحسين أداء المحولات. حاليًا، أكثر ترميزات الموضع النسبي شيوعًا هي T5 Relative Bias وRoPE وXPos وALiBi.

يحتوي التشفير الموضعي على قيود متكررة: عدم القدرة على التعميم على نافذة السياق التي تتم رؤيتها أثناء التدريب. على الرغم من أن بعض الأساليب مثل ALiBi لديها القدرة على القيام ببعض التعميم المحدود، إلا أنه لم يتم تعميم أي طريقة حتى الآن على تسلسلات أطول بكثير من طولها المُدرب مسبقًا.

ظهرت العديد من الجهود البحثية التي تحاول التغلب على هذه القيود. على سبيل المثال، تقترح بعض الأبحاث تعديل حبل RoPE بشكل طفيف من خلال الاستيفاء الموضعي (PI) وضبط كمية صغيرة من البيانات لتوسيع طول السياق.

قبل شهرين، شارك Bowen Peng من Nous Research حلاً على Reddit، وهو تنفيذ "استيفاء مدرك لـ NTK" من خلال دمج الخسائر عالية التردد. يشير NTK هنا إلى Neural Tangent Kernel.

تدعي أن RoPE الممتد المدرك لـ NTK يمكنه توسيع نافذة السياق لنموذج LLaMA بشكل كبير (أكثر من 8 كيلو بايت) دون أي ضبط دقيق وبأقل تأثير على الحيرة.

مؤخرًا، تم إصدار ورقة ذات صلة له ولثلاثة متعاونين آخرين!

* ورق:

  • نموذج:

في هذه الورقة، قاموا بإجراء تحسينين على الاستيفاء المدرك لـ NTK، والذي يركز على جوانب مختلفة:

  • يمكن استخدام طريقة الاستيفاء الديناميكي NTK للنماذج المدربة مسبقًا دون ضبط دقيق.
  • طريقة الاستيفاء الجزئي لـ NTK، يمكن للنموذج تحقيق أفضل أداء عند ضبطه باستخدام كمية صغيرة من بيانات السياق الأطول.

قال الباحث أنه قبل ولادة هذه الورقة، استخدم الباحثون بالفعل الاستيفاء المدرك لـ NTK والاستيفاء الديناميكي لـ NTK في بعض النماذج مفتوحة المصدر. تتضمن الأمثلة Code Llama (باستخدام الاستيفاء المدرك لـ NTK) وQwen 7B (باستخدام الاستيفاء الديناميكي لـ NTK).

في هذه الورقة، استنادًا إلى نتائج الأبحاث السابقة حول الاستيفاء المدرك لـ NTK، والاستيفاء الديناميكي لـ NTK، والاستيفاء الجزئي لـ NTK، اقترح الباحثون YaRN (طريقة أخرى لتمديد RoPE)، وهي طريقة يمكنها توسيع استخدام تضمين موضع الدوران بكفاءة (الموضع الدوار) يمكن استخدام طريقة نافذة سياق النموذج Embeddings / RoPE لنماذج سلسلة LLaMA وGPT-NeoX وPaLM. وجدت الدراسة أن YaRN يمكنها تحقيق أفضل أداء لتوسيع نافذة السياق حاليًا فقط باستخدام عينات تمثيلية تبلغ حوالي 0.1% من حجم بيانات ما قبل التدريب للنموذج الأصلي من أجل الضبط الدقيق.

طريقة

تم تقديم تضمينات الموضع الدوار (RoPE) لأول مرة في الورقة "RoFormer: محول محسّن مع تضمين موضع دوار" وهو أيضًا أساس YaRN.

ببساطة، يمكن كتابة RoPE على النحو التالي:

بالنسبة لماجستير في القانون تم تدريبه مسبقًا بطول سياق ثابت، إذا تم استخدام الاستيفاء الموضعي (PI) لتمديد طول السياق، فيمكن التعبير عنه على النحو التالي:

يمكن أن نرى أن PI سيعمل على توسيع جميع أبعاد RoPE بشكل متساوٍ. وجد الباحثون أن حدود الاستيفاء النظرية الموصوفة في ورقة PI لم تكن كافية للتنبؤ بالديناميكيات المعقدة بين التضمين الداخلي RoPE وLLM. سوف يصف ما يلي المشاكل الرئيسية لـ PI التي اكتشفها الباحثون وحلها، حتى يتمكن القراء من فهم الخلفية والأسباب وأسباب الحل لمختلف الطرق الجديدة في YaRN.

** فقدان معلومات عالية التردد - الاستيفاء المدرك لـ NTK **

إذا نظرنا إلى RoPE فقط من منظور تشفير المعلومات، وفقًا لنظرية نواة الظل العصبي (NTK)، إذا كان بُعد الإدخال منخفضًا والتضمين المقابل يفتقر إلى مكونات عالية التردد، فمن الصعب على الشبكة العصبية العميقة تعلم معلومات عالية التردد.

من أجل حل مشكلة فقدان المعلومات عالية التردد عند تضمين الاستيفاء لـ RoPE، اقترح Bowen Peng الاستيفاء المدرك لـ NTK في منشور Reddit أعلاه. لا يعمل هذا النهج على توسيع كل بُعد من أبعاد RoPE بشكل متساوٍ، ولكنه ينشر ضغط الاستيفاء عبر أبعاد متعددة عن طريق توسيع الترددات العالية بشكل أقل والترددات المنخفضة بشكل أكبر.

في الاختبارات، وجد الباحثون أن هذا النهج تفوق على PI في قياس حجم سياق النموذج غير المضبوط. ومع ذلك، فإن هذه الطريقة لها عيب كبير: نظرًا لأنها ليست مجرد مخطط استيفاء، فسيتم استقراء بعض الأبعاد إلى بعض القيم "الخارجية"، لذا فإن الضبط الدقيق باستخدام الاستيفاء المدرك لـ NTK ليس بنفس فعالية PI.

علاوة على ذلك، ونظرًا لوجود قيم "خارجية"، لا يمكن لعامل التوسع النظري أن يصف بدقة الدرجة الحقيقية لتوسيع السياق. من الناحية العملية، بالنسبة لامتداد طول السياق المحدد، يجب تعيين قيمة الامتداد s أعلى قليلاً من قيمة الامتداد المتوقعة.

فقدان المسافة المحلية النسبية - الاستيفاء الجزئي لـ NTK

بالنسبة لتضمين RoPE، هناك ملاحظة مثيرة للاهتمام: نظرًا لحجم السياق L، هناك بعض الأبعاد d حيث يكون الطول الموجي أطول من الحد الأقصى لطول السياق الذي شوهد في مرحلة ما قبل التدريب (lect > L)، وهو ما يوضح التضمين من بعض الأبعاد ربما التوزيع غير المتكافئ في المجال الدوار.

يعالج الاستيفاء المدرك لـ PI وNTK جميع أبعاد RoPE المخفية بالتساوي (كما لو كان لها نفس التأثير على الشبكة). لكن الباحثين وجدوا من خلال التجارب أن الإنترنت يتعامل مع بعض الأبعاد بشكل مختلف عن الأبعاد الأخرى. كما ذكرنا من قبل، بالنظر إلى طول السياق L، يكون الطول الموجي لبعض الأبعاد أكبر من أو يساوي L. نظرًا لأنه عندما يكون الطول الموجي للبعد المخفي أكبر من أو يساوي L، فإن جميع أزواج المواضع سوف تقوم بتشفير مسافة محددة، لذلك يفترض الباحثون أنه يتم الاحتفاظ بمعلومات الموقع المطلقة؛ عندما يكون الطول الموجي أقصر، يمكن للشبكة فقط الحصول على المعلومات النسبية Position.information.

عندما يتم تمديد جميع أبعاد RoPE باستخدام نسبة التمدد s أو قيمة التغيير الأساسية b'، تصبح جميع الرموز المميزة أقرب إلى بعضها البعض لأن المنتج النقطي لمتجهين يتم تدويرهما بكمية أصغر سيكون أكبر. يمكن أن يؤدي هذا الامتداد إلى إضعاف قدرة LLM بشكل خطير على فهم العلاقات المحلية الصغيرة بين عناصرها الداخلية. يتوقع الباحثون أن هذا الضغط سيؤدي إلى ارتباك النموذج بشأن ترتيب موضع الرموز القريبة، مما يضر بقدرة النموذج.

ولحل هذه المشكلة، بناءً على ما لاحظه الباحثون، اختاروا عدم استيفاء أبعاد التردد الأعلى على الإطلاق.

واقترحوا أيضًا أنه بالنسبة لجميع الأبعاد d، يتم تحريف الأبعاد ذات r < α خطيًا وفقًا لدرجة الامتداد s (مثل PI، يتم تجنب الاستقراء)؛ الأبعاد ذات r > β لا يتم استيفاءها على الإطلاق (دائما استقراء).

باستخدام التقنية الموضحة في هذا القسم، ولدت طريقة تسمى الاستيفاء الجزئي لـ NTK. تتفوق هذه الطريقة المحسنة على أساليب الاستيفاء السابقة المدركة لـ PI وNTK وتعمل على كل من النماذج غير المضبوطة والمضبوطة بدقة. نظرًا لأن هذه الطريقة تتجنب استقراء الأبعاد حيث يتم توزيع مجال التدوير بشكل غير متساوٍ، يتم تجنب جميع مشاكل الضبط الدقيق للطرق السابقة.

** القياس الديناميكي - الاستيفاء الديناميكي لـ NTK **

عند قياس حجم السياق دون الضبط الدقيق باستخدام طريقة الاستيفاء RoPE، نتوقع أن يتحلل النموذج ببطء على أحجام السياق الأطول، بدلاً من التدهور الكامل على حجم السياق بأكمله عندما تتجاوز درجة القياس القيمة المطلوبة.

في طريقة NTK الديناميكية، يتم حساب درجة التوسع ديناميكيًا.

أثناء الاستدلال، عندما يتم تجاوز حجم السياق، يتم تغيير درجة التوسع ديناميكيًا، مما يسمح لجميع النماذج بالتدهور ببطء بدلاً من التعطل المفاجئ عند الوصول إلى حد سياق التدريب L.

** تمت إضافة متوسط الحد الأدنى لتشابه جيب التمام للمسافات الطويلة - YaRN **

حتى لو تم حل مشكلة المسافة المحلية الموصوفة سابقًا، يجب استكمال مسافة أكبر عند العتبة α لتجنب الاستقراء. حدسيًا، لا يبدو أن هذا يمثل مشكلة، لأن المسافة العالمية لا تتطلب دقة عالية للتمييز بين مواضع الرمز المميز (أي أن الشبكة تحتاج فقط إلى معرفة تقريبية ما إذا كان الرمز المميز في بداية التسلسل أو وسطه أو نهايته).

ومع ذلك، فقد وجد الباحثون أنه نظرًا لأن متوسط الحد الأدنى للمسافة يصبح أقرب مع زيادة عدد الرموز المميزة، فإن ذلك سيجعل توزيع الانتباه softmax أكثر وضوحًا (أي تقليل متوسط الإنتروبيا للانتباه softmax). وبعبارة أخرى، مع تقليل تأثير التوهين لمسافات طويلة عن طريق الاستيفاء، فإن الشبكة "سوف تولي المزيد من الاهتمام" لمزيد من الرموز. يمكن أن يؤدي هذا التحول في التوزيع إلى تدهور جودة مخرجات LLM، وهي مشكلة أخرى لا علاقة لها بالمشكلة السابقة.

نظرًا لأن الإنتروبيا في توزيع انتباه softmax يتناقص عندما يتم تحريف تضمينات RoPE إلى أحجام سياق أطول، فإننا نهدف إلى عكس هذا الانخفاض في الإنتروبيا (أي زيادة "درجة حرارة" سجل الانتباه). يمكن القيام بذلك عن طريق ضرب مصفوفة الانتباه المتوسطة في درجة الحرارة t > 1 قبل تطبيق softmax، ولكن بما أن تضمين RoPE مشفر كمصفوفة دوران، فمن الممكن ببساطة تمديد طول تضمين RoPE بعامل ثابت √t . تسمح تقنية "تمديد الطول" هذه بالبحث دون تعديل رمز الانتباه، مما يمكن أن يبسط بشكل كبير التكامل مع عمليات التدريب والاستدلال الحالية، ويكون التعقيد الزمني هو O(1) فقط.

نظرًا لأن مخطط استيفاء RoPE هذا يقحم بشكل غير منتظم أبعاد RoPE، فمن الصعب حساب حل تحليلي لنسبة درجة الحرارة المطلوبة t فيما يتعلق بدرجة التمدد s. لحسن الحظ، وجد الباحثون من خلال التجارب أنه من خلال تقليل الحيرة، تتبع جميع نماذج LLaMA تقريبًا نفس المنحنى المناسب:

اكتشف الباحثون هذه الصيغة على LLaMA 7B و13B و33B و65B. ووجدوا أن هذه الصيغة عملت أيضًا بشكل جيد مع نماذج LLaMA 2 (7B، و13B، و70B)، مع وجود اختلافات طفيفة. يشير هذا إلى أن خاصية زيادة الإنتروبيا هذه شائعة وتعمم على نماذج وبيانات تدريب مختلفة.

أدى هذا التعديل النهائي إلى طريقة YaRN. تتفوق الطريقة الجديدة على جميع الطرق السابقة في كل من السيناريوهات المضبوطة وغير المضبوطة دون الحاجة إلى أي تعديلات على رمز الاستدلال. فقط الخوارزمية المستخدمة لإنشاء عمليات تضمين RoPE في المقام الأول هي التي تحتاج إلى تعديل. YaRN بسيط جدًا بحيث يمكن تنفيذه بسهولة في جميع مكتبات الاستدلال والتدريب، بما في ذلك التوافق مع Flash Attention 2.

تجربة

تظهر التجارب أن YaRN يمكنها بنجاح توسيع نافذة سياق LLM. علاوة على ذلك، فقد حققوا هذه النتيجة بعد التدريب على 400 خطوة فقط، وهو ما يمثل حوالي 0.1% من مجموعة التدريب المسبق الأصلية للنموذج، وهو انخفاض كبير مقارنة بنتائج الأبحاث السابقة. وهذا يدل على أن الطريقة الجديدة ذات كفاءة حسابية عالية وليس لها أي تكلفة استدلال إضافية.

ولتقييم النموذج الناتج، قام الباحثون بحساب مستوى الحيرة في المستندات الطويلة وتسجيلها وفقًا للمعايير الحالية، ووجدوا أن الطريقة الجديدة تفوقت في الأداء على جميع طرق توسيع نافذة السياق الأخرى.

أولاً، قام الباحثون بتقييم أداء النموذج عند زيادة نافذة السياق. ويلخص الجدول 1 النتائج التجريبية.

يوضح الجدول 2 الحيرة النهائية في 50 مستندًا غير خاضع للرقابة من GovReport (يبلغ طولها 16 ألف رمز على الأقل).

لاختبار تدهور أداء النموذج عند استخدام امتدادات السياق، قمنا بتقييم النموذج باستخدام مجموعة Hugging Face Open LLM Leaderboard ومقارنتها بالنتائج الموجودة من نموذج خط الأساس LLaMA 2 والنماذج المتاحة للعامة والتي تدرك PI وNTK. ويلخص الجدول 3 النتائج التجريبية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت