مع ما يصل إلى 4 ملايين سياق رمزي واستدلال أسرع 22 مرة، أصبح StreamingLLM شائعًا وحصل على 2.5 ألف نجمة على GitHub.

المحرر: صلصة البيض

إذا كان لديك خبرة في التواصل مع أي روبوت محادثة يعمل بالذكاء الاصطناعي، فيمكنك بالتأكيد أن تتذكر بعض اللحظات "المحبطة" للغاية. على سبيل المثال، النقاط الرئيسية التي ذكرتها في المحادثة في اليوم السابق قد نسيها الذكاء الاصطناعي تمامًا...

وذلك لأن معظم طلاب ماجستير القانون الحاليين لا يمكنهم تذكر سوى سياق محدود، تمامًا مثل الطلاب الذين يستعدون للامتحانات، ستنكشف أقدامهم بعد قليل من الاستجواب.

تخيل لو كان بإمكان مساعد الذكاء الاصطناعي في الدردشة الإشارة إلى المحادثات التي تمت منذ أسابيع أو أشهر مضت، أو إذا كان بإمكانك أن تطلب من مساعد الذكاء الاصطناعي تلخيص تقرير يبلغ طوله آلاف الصفحات، أليس هذا أمرًا يحسد عليه؟

من أجل جعل LLM يتذكر أكثر وأفضل، يعمل الباحثون باستمرار بجد. في الآونة الأخيرة، اقترح باحثون من معهد ماساتشوستس للتكنولوجيا وMeta AI وCMU طريقة تسمى "StreamingLLM" لتمكين نماذج اللغة من معالجة النصوص التي لا نهاية لها بسلاسة.

* عنوان الورقة:

  • عنوان المشروع :

مبدأ عمل StreamingLLM هو تحديد وحفظ الرموز الأولية التي ترتكز على "مغاسل الانتباه" المتأصلة في النموذج من أجل منطقها. بالإضافة إلى ذاكرة التخزين المؤقت المتداولة للرموز المميزة الحديثة، يعمل StreamingLLM على تسريع الاستدلال بمقدار 22 مرة دون التضحية بأي دقة. وفي أيام قليلة فقط، حصل المشروع على 2.5 ألف نجمة على منصة GitHub:

على وجه التحديد، يتيح StreamingLLM لنموذج اللغة أن يتذكر بدقة نتيجة الهبوط في المباراة الأخيرة، أو اسم المولود الجديد، أو العقد المطول، أو محتوى المناقشة، تمامًا مثلما تمت ترقية ذاكرة مساعد الذكاء الاصطناعي للتعامل بشكل لا تشوبه شائبة المزيد من أعباء العمل الثقيلة.

بعد ذلك، دعونا نلقي نظرة على التفاصيل الفنية.

ابتكار الطريقة

عادةً ما يكون LLM محدودًا بنافذة الانتباه عند التدريب المسبق. على الرغم من أن الكثير من العمل قد تم إنجازه سابقًا لتوسيع حجم هذه النافذة وتحسين كفاءة التدريب والاستدلال، إلا أن طول التسلسل المقبول لـ LLM لا يزال محدودًا، وهو أمر غير مناسب للنشر المستمر.

في هذه الورقة، قدم الباحثون لأول مرة مفهوم تطبيقات تدفق LLM وطرحوا السؤال التالي: "هل يمكن نشر LLM بمدخلات طويلة بلا حدود دون التضحية بالكفاءة والأداء؟"

هناك تحديان رئيسيان عند تطبيق LLM على تدفقات المدخلات الطويلة بلا حدود:

  1. أثناء مرحلة فك التشفير، تقوم LLM المستندة إلى المحولات بتخزين حالة المفتاح والقيمة (KV) لجميع الرموز المميزة السابقة، كما هو موضح في الشكل 1 (أ)، مما قد يتسبب في استخدام مفرط للذاكرة وزيادة زمن الوصول لفك التشفير؛

  2. قدرة استقراء الطول للنماذج الحالية محدودة، أي أنه عندما يتجاوز طول التسلسل حجم نافذة الانتباه المحدد أثناء التدريب المسبق، سينخفض أدائها.

هناك طريقة بديهية تسمى "انتباه النافذة" (الشكل 1 ب)، تحافظ هذه الطريقة فقط على نافذة منزلقة ذات حجم ثابت على حالة KV لأحدث رمز مميز، على الرغم من أنها يمكن أن تضمن أن يمكنها الحفاظ على استخدام مستقر للذاكرة وسرعة فك التشفير، ولكن بمجرد أن يتجاوز طول التسلسل حجم ذاكرة التخزين المؤقت، أو حتى مجرد إزالة KV للرمز المميز الأول، سوف ينهار النموذج. هناك طريقة أخرى وهي إعادة حساب النافذة المنزلقة (كما هو موضح في الشكل 1 ج). ستعيد هذه الطريقة بناء حالة KV للرمز الحديث لكل رمز مميز تم إنشاؤه. على الرغم من أن الأداء قوي، إلا أنه يتطلب حساب الاهتمام الثانوي داخل النافذة. النتيجة أبطأ بشكل ملحوظ، وهي ليست مثالية في تطبيقات البث الحقيقية.

في عملية فهم فشل انتباه النافذة، اكتشف الباحثون ظاهرة مثيرة للاهتمام في ماجستير الانحدار الذاتي: كما هو موضح في الشكل 2، يتم تعيين عدد كبير من درجات الانتباه للرموز الأولية، بغض النظر عما إذا كانت هذه الرموز المميزة مرتبطة بمهمة نمذجة اللغة . .

يطلق الباحثون على هذه الرموز اسم "مجموعات الانتباه": على الرغم من أنها تفتقر إلى المعنى الدلالي، إلا أنها تشغل قدرًا كبيرًا من نقاط الاهتمام. يعزو الباحثون هذه الظاهرة إلى Softmax (الذي يتطلب أن يكون مجموع درجات الاهتمام لجميع الرموز المميزة للسياق 1). حتى لو لم يكن للاستعلام الحالي تطابق قوي بين العديد من الرموز المميزة السابقة، فإن النموذج لا يزال بحاجة إلى نقل هذه الاهتمامات غير الضرورية يتم تعيين القيم في مكان ما بحيث يكون مجموعها 1. السبب وراء تحول الرمز المميز الأولي إلى "تجمع" هو أمر بديهي: نظرًا لخصائص نمذجة اللغة الانحدار التلقائي، يكون الرمز المميز الأولي مرئيًا لجميع الرموز المميزة اللاحقة تقريبًا، مما يجعل تدريبها أسهل كتجمع انتباه.

بناءً على الأفكار المذكورة أعلاه، اقترح الباحثون StreamingLLM، وهو إطار عمل بسيط وفعال يسمح لنموذج انتباه تم تدريبه باستخدام نافذة انتباه محدودة لمعالجة نص طويل بلا حدود دون ضبط دقيق.

يستغل StreamingLLM حقيقة أن مجموعات الاهتمام لها قيم اهتمام عالية، والاحتفاظ بمجموعات الانتباه هذه يمكن أن يجعل توزيع نقاط الاهتمام قريبًا من التوزيع الطبيعي. لذلك، يحتاج StreamingLLM فقط إلى الاحتفاظ بقيمة KV للرمز المميز لتجمع الانتباه (4 رموز أولية فقط كافية) وقيمة KV للنافذة المنزلقة لتثبيت حساب الاهتمام وتحقيق الاستقرار في أداء النموذج.

باستخدام StreamingLLM، يمكن محاكاة النماذج بما في ذلك Llama-2-[7,13,70] B، وMPT-[7,30] B، وFalcon-[7,40] B، وPythia [2.9,6.9,12] B بشكل موثوق. مليون رمز أو أكثر.

بالمقارنة مع خط الأساس الوحيد الممكن، وهو إعادة حساب النافذة المنزلقة، فإن StreamingLLM أسرع بمقدار 22.2 مرة دون التضحية بالأداء.

تقييم

في الجلسة التجريبية، كما هو موضح في الشكل 3، على النص الممتد على 20 ألف رمز مميز، فإن حيرة StreamingLLM قابلة للمقارنة بخط الأساس Oracle (إعادة حساب النافذة المنزلقة). في الوقت نفسه، عندما يتجاوز طول الإدخال نافذة التدريب المسبق، سيفشل الانتباه الكثيف، وعندما يتجاوز طول الإدخال حجم ذاكرة التخزين المؤقت، سيواجه انتباه النافذة مشكلة، مما يتسبب في إزالة الرمز المميز الأولي.

ويؤكد الشكل 5 أيضًا أن StreamingLLM يمكنها التعامل بشكل موثوق مع النصوص ذات الأحجام غير العادية، بما في ذلك أكثر من 4 ملايين رمز، تغطي مجموعة متنوعة من العائلات والأحجام النموذجية. يتضمن ذلك Llama-2-[7,13,70] B، وFalcon-[7,40] B، وPythia-[2.8,6.9,12] B وMPT-[7,30] B.

بعد ذلك، أكد الباحثون فرضية "مجموعة الاهتمام" وأثبتوا أن نموذج اللغة يمكن تدريبه مسبقًا ولا يتطلب سوى رمزًا مميزًا لتجمع الانتباه أثناء نشر البث. على وجه التحديد، يوصون بإضافة رمز إضافي قابل للتعلم في بداية جميع عينات التدريب كمجموعة اهتمام مخصصة. ومن خلال التدريب المسبق لنموذج لغوي يحتوي على 160 مليون معلمة من الصفر، أثبت الباحثون أن هذه الطريقة يمكنها الحفاظ على أداء النموذج. وهذا يتناقض بشكل حاد مع نماذج اللغة الحالية، التي تتطلب إعادة تقديم رموز أولية متعددة كمجموعات اهتمام لتحقيق نفس المستوى من الأداء.

أخيرًا، قارن الباحثون زمن الوصول لفك التشفير واستخدام الذاكرة لـ StreamingLLM مع النافذة المنزلقة لإعادة الحساب وتم اختبارهم على وحدة معالجة رسومات NVIDIA A6000 واحدة باستخدام طرازي Llama-2-7B وLlama-2-13B. كما هو موضح في الشكل 10، مع زيادة حجم ذاكرة التخزين المؤقت، تزداد سرعة فك تشفير StreamingLLM خطيًا. يزداد تأخير فك التشفير في المنحنى التربيعي. أثبتت التجارب أن StreamingLLM يحقق سرعات مذهلة، مع زيادة سرعة كل رمز مميز بما يصل إلى 22.2 مرة.

لمزيد من تفاصيل البحث، يرجى الرجوع إلى الورقة الأصلية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت