كيفية تقليل التكلفة الحسابية للمحول البصري؟ نهج التكرار الزمني مثير للدهشة

بعد إدخال التغييرات على مجال اللغة، يدخل Transformer إلى المجال المرئي، ولكنه يعاني أيضًا من مشكلة التكلفة الحسابية العالية. في الآونة الأخيرة، اقترح فريق بحث في جامعة ويسكونسن ماديسون برنامج Eventful Transformer، والذي يمكنه توفير التكاليف عن طريق الاستفادة من تكرار الوقت في المحول المرئي.

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

تم تصميم المحول في الأصل لمهام معالجة اللغة الطبيعية، ولكنه يستخدم الآن على نطاق واسع لمهام الرؤية. يحقق Vision Transformer دقة فائقة في مجموعة من مهام التعرف البصري ويحقق أداءً متطورًا في مهام مثل تصنيف الصور وتصنيف الفيديو واكتشاف الكائنات.

العيب الرئيسي للمحول المرئي هو تكلفته الحسابية العالية. تتطلب الشبكات التلافيفية النموذجية (CNN) عشرات من GFlops لكل صورة لمعالجتها، بينما تتطلب المحولات المرئية غالبًا ترتيبًا أكبر من الحجم، حيث تصل إلى مئات من GFlops لكل صورة. عند معالجة الفيديو، تصبح هذه المشكلة أكثر خطورة بسبب الكم الهائل من البيانات. التكلفة الحسابية العالية تجعل من الصعب نشر المحول المرئي على الأجهزة ذات الموارد المحدودة أو متطلبات الكمون الصارمة، مما يحد من سيناريوهات تطبيق هذه التكنولوجيا، وإلا سيكون لدينا بالفعل بعض التطبيقات المثيرة.

في ورقة بحثية حديثة، اقترح ثلاثة باحثين من جامعة ويسكونسن ماديسون، ماثيو دوتسون، ويين لي، وموهيت غوبتا، لأول مرة أنه يمكن استخدام التكرار الزمني بين المدخلات اللاحقة لتقليل تكلفة المحولات المرئية في تطبيقات الفيديو. قاموا أيضًا بإصدار رمز النموذج، والذي يتضمن وحدة PyTorch المستخدمة لبناء Eventful Transformer.

* عنوان الورقة:

  • عنوان المشروع :

التكرار الزمني: افترض أولاً أن هناك محولًا مرئيًا يمكنه معالجة إطار تسلسل فيديو بإطار أو مقطع فيديو بمقطع فيديو. قد يكون هذا المحول نموذجًا بسيطًا لمعالجة إطار بإطار (مثل كاشف الكائنات) أو خطوة وسيطة لنموذج زماني مكاني (مثل الخطوة الأولى لنموذج ViViT المتحلل). على عكس محول معالجة اللغة، حيث يكون أحد المدخلات عبارة عن تسلسل كامل، يقدم الباحثون هنا عدة مدخلات مختلفة (إطارات أو مقاطع فيديو) إلى المحول بمرور الوقت.

تحتوي مقاطع الفيديو الطبيعية على تكرار زمني كبير، أي أن الاختلافات بين الإطارات اللاحقة تكون صغيرة. ومع ذلك، فإن الشبكات العميقة، بما في ذلك المحولات، عادةً ما تحسب كل إطار "من الصفر". تتجاهل هذه الطريقة المعلومات التي يحتمل أن تكون ذات صلة والتي تم الحصول عليها من خلال الاستدلال السابق، وهو أمر يهدر للغاية. ولذلك تساءل هؤلاء الباحثون الثلاثة: هل يمكن إعادة استخدام نتائج الحساب الوسيطة لخطوات الحساب السابقة لتحسين كفاءة معالجة التسلسلات الزائدة عن الحاجة؟

الاستدلال التكيفي: بالنسبة للمحولات المرئية والشبكات العميقة بشكل عام، غالبًا ما يتم تحديد تكلفة الاستدلال بواسطة البنية. ومع ذلك، في التطبيقات الحقيقية، قد تتغير الموارد المتاحة بمرور الوقت، على سبيل المثال بسبب العمليات المتنافسة أو تغيرات الطاقة. ونتيجة لذلك، قد تكون هناك حاجة لتعديل تكلفة حساب النموذج في وقت التشغيل. كان أحد أهداف التصميم الرئيسية التي وضعها الباحثون في هذا الجهد الجديد هو القدرة على التكيف، حيث سمح نهجهم بالتحكم في الوقت الفعلي في التكاليف الحسابية. يعطي الشكل 1 أدناه (أسفل) مثالاً على تعديل الميزانية الحسابية أثناء معالجة الفيديو.

المحول الحافل بالأحداث: تقترح هذه الورقة المحول الحافل بالأحداث، والذي يمكنه استغلال التكرار الزمني بين المدخلات لتحقيق تفكير فعال وقابل للتكيف. المصطلح المليء بالأحداث مستوحى من كاميرات الأحداث، وأجهزة الاستشعار التي تسجل الصور بشكل منفصل مع تغير المشهد. يقوم Eventful Transformer بتتبع التغييرات على مستوى الرمز المميز بمرور الوقت ويقوم بشكل انتقائي بتحديث تمثيلات الرمز المميز وخرائط الاهتمام الذاتي في كل خطوة زمنية. تحتوي وحدة Eventful Transformer على وحدة بوابة يتم استخدامها للتحكم في عدد الرموز المميزة التي يتم تحديثها أثناء وقت التشغيل.

يمكن استخدام هذه الطريقة مع النماذج الجاهزة (عادةً بدون إعادة التدريب) وهي متوافقة مع العديد من مهام معالجة الفيديو. أجرى الباحثون أيضًا عروضًا تجريبية، وأظهرت النتائج أنه يمكن استخدام Eventful Transformer على أفضل النماذج الموجودة، مما يقلل بشكل كبير من تكاليفها الحسابية مع الحفاظ على دقتها الأصلية.

محول مليء بالأحداث

الهدف من هذا البحث هو تسريع محول الرؤية للتعرف على الفيديو. في هذا السيناريو، يحتاج المحول المرئي إلى معالجة إطارات الفيديو أو مقاطع الفيديو بشكل متكرر. تتضمن المهام المحددة اكتشاف هدف الفيديو والتعرف على إجراء الفيديو. الفكرة الرئيسية المقترحة هنا هي استغلال التكرار الزمني، أي إعادة استخدام نتائج الحساب للخطوات الزمنية السابقة. سوف يصف ما يلي بالتفصيل كيفية تعديل وحدة المحول لجعلها قادرة على استشعار التكرار الزمني.

بوابة الرمز المميز: اكتشاف التكرار

سيقدم هذا القسم وحدتين جديدتين اقترحهما الباحثون: بوابة الرمز المميز والمخزن المؤقت للرمز المميز. تسمح هذه الوحدات للنموذج بتحديد وتحديث الرموز المميزة التي تغيرت بشكل ملحوظ منذ التحديث الأخير.

وحدة البوابة: ستحدد هذه البوابة الجزء M من رمز الإدخال N وترسله إلى الطبقة النهائية للحساب. ويحتفظ برمز مرجعي محدد في ذاكرته، يُشار إليه بالرمز u. يحتوي هذا المتجه المرجعي على قيمة كل رمز مميز في وقت آخر تحديث له. في كل خطوة زمنية، تتم مقارنة كل رمز مميز بالقيمة المرجعية المقابلة له، ويتم تحديث الرمز المميز الذي يختلف بشكل كبير عن القيمة المرجعية.

الآن دع الإدخال الحالي للبوابة يكون c. في كل خطوة زمنية، يتم اتباع العملية التالية لتحديث حالة البوابة وتحديد مخرجاتها (انظر الشكل 2 أدناه):

1. احسب الخطأ الإجمالي e = u − c.

  1. استخدم استراتيجية الاختيار للخطأ ه. تقوم استراتيجية التحديد بإرجاع قناع ثنائي m (أي ما يعادل قائمة فهرس الرموز المميزة)، مما يشير إلى الرموز المميزة M التي يجب تحديثها.

  2. قم باستخراج الرمز المميز الذي حددته الإستراتيجية المذكورة أعلاه. يتم توضيح ذلك في الشكل 2 باعتباره المنتج c × m؛ ويتم تحقيقه عمليًا عن طريق إجراء عملية "تجميع" على طول المحور الأول لـ c. يتم تسجيل الرموز المجمعة هنا باسم

وهو مخرج البوابة.

  1. قم بتحديث الرمز المرجعي إلى الرمز المميز المحدد. ويصف الشكل 2 هذه العملية بأنها

؛ العملية المستخدمة عمليًا هي "مبعثر". في خطوة المرة الأولى، تقوم البوابة بتحديث جميع الرموز المميزة (تهيئة u ← c وإرجاع c˜ = c).

الوحدة العازلة: تحافظ الوحدة العازلة على موتر الحالة

، الذي يتتبع كل رمز إدخال

عندما يقوم المخزن المؤقت بتوزيع الرموز المميزة من f (c˜) إلى مواضعها المقابلة في b. ثم تقوم بإرجاع b المحدث كمخرج لها، انظر الشكل 3 أدناه.

قام الباحثون بإقران كل باب بعازل خلفه. فيما يلي نمط استخدام بسيط: إخراج البوابة

يتم تمريرها إلى سلسلة من العمليات f (c˜) على كل رمز، ثم الموتر الناتج

تم تمريره إلى المخزن المؤقت، والذي سوف يستعيد الشكل الكامل.

** إنشاء محول مدرك للتكرار **

من أجل الاستفادة من التكرار الزمني المذكور أعلاه، اقترح الباحثون خطة تعديل لوحدة المحولات. يوضح الشكل 4 أدناه تصميم وحدة Eventful Transformer. يمكن لهذه الطريقة تسريع العمليات على الرموز الفردية (مثل MLP) بالإضافة إلى قيمة مفتاح الاستعلام ومضاعفة قيمة الانتباه.

في وحدة عملية المحول لكل رمز مميز، يتم تنفيذ العديد من العمليات لكل رمز مميز، مما يعني أنها لا تتضمن تبادل المعلومات بين الرموز المميزة، بما في ذلك التحويلات الخطية في MLP وMSA. من أجل توفير التكاليف الحسابية، ذكر الباحثون أنه يمكن تخطي العمليات الموجهة نحو الرمز المميز للرموز المميزة التي لم يتم تحديدها بواسطة البوابة. ونظرًا للاستقلالية بين الرموز المميزة، فإن هذا لا يغير نتيجة العملية على الرمز المميز المحدد. انظر الشكل 3.

على وجه التحديد، استخدم الباحثون زوجًا من بوابات المخازن المؤقتة للتسلسل المستمر للعمليات على كل رمز مميز (بما في ذلك تحويل W_qkv، وتحويل W_p، وMLP). لاحظ أنهم أضافوا أيضًا مخزنًا مؤقتًا قبل اتصال التخطي للتأكد من محاذاة الرموز المميزة لمعاملي الإضافة بشكل صحيح.

تتناسب تكلفة العملية لكل رمز مميز مع عدد الرموز المميزة. يمكن للبوابة تقليل هذا الرقم من N إلى M، مما يقلل أيضًا من التكلفة الحسابية للعمليات النهائية لكل رمز مميز بمقدار N/M مرات.

منتج قيمة مفتاح الاستعلام: الآن دعونا نلقي نظرة على منتج قيمة مفتاح الاستعلام B = qk^T.

يوضح الشكل 5 أدناه طريقة للتحديث المتناثر لمجموعة فرعية من العناصر في منتج قيمة مفتاح الاستعلام B.

تبلغ التكلفة الإجمالية لهذه التحديثات 2NMD، مقارنة بتكلفة حوسبة B من الصفر، وهي N^2D. لاحظ أن تكلفة الطريقة الجديدة تتناسب مع M، وهو عدد الرموز المميزة التي تحددها البوابة. عندما تكون M < N/2 (الرموز المميزة المحدثة في هذا الوقت أقل من نصف الإجمالي)، يمكن حفظ مبلغ الحساب.

منتج قيمة الانتباه: اقترح الباحث استراتيجية تحديث تعتمد على الزيادة Δ.

يوضح الشكل 6 أدناه الطريقة المقترحة حديثًا لحساب ثلاثة حدود إضافية بكفاءة.

وبالمثل، عندما يكون M < N/2، يمكن حفظ مبلغ الحساب.

** استراتيجية اختيار الرمز المميز **

أحد التصميمات المهمة لـ Eventful Transformer هو استراتيجية اختيار الرمز المميز. نظرًا لموتر خطأ البوابة e، فإن الهدف من هذه السياسة هو إنشاء قناع m يشير إلى الرموز المميزة التي يجب تحديثها. تشمل الاستراتيجيات المحددة ما يلي:

إستراتيجية Top-r: تختار هذه الإستراتيجية رموز r ذات أكبر خطأ e (يتم استخدام معيار L2 هنا).

استراتيجية العتبة: تختار هذه الإستراتيجية جميع الرموز المميزة التي يتجاوز معيار الخطأ e عتبة h.

استراتيجيات أخرى: يمكن لاستراتيجيات اختيار الرموز الأكثر تعقيدًا وتعقيدًا تحقيق مقايضات أفضل من حيث الدقة والتكلفة، على سبيل المثال، يمكن استخدام شبكة سياسات خفيفة الوزن لتعلم الإستراتيجية. ومع ذلك، قد يكون تدريب آلية صنع القرار في السياسة أمرًا صعبًا لأن القناع الثنائي m غير قابل للتمييز بشكل عام. فكرة أخرى هي استخدام درجة الأهمية كمعلومات مرجعية للاختيار. لكن هذه الأفكار لا تزال تنتظر البحث المستقبلي.

تجربة

قام الباحثون بتقييم الطريقة المقترحة حديثًا بشكل تجريبي فيما يتعلق بمهام اكتشاف كائن الفيديو والتعرف على حركة الفيديو.

ويبين الشكل 7 أدناه النتائج التجريبية للكشف عن هدف الفيديو. المحور الإيجابي هو معدل الادخار الحسابي، والمحور السلبي هو التخفيض النسبي في درجة mAP50 للطريقة الجديدة. ويمكن ملاحظة أن الطريقة الجديدة تحقق وفورات حسابية كبيرة مع التضحية الصغيرة بالدقة.

ويبين الشكل 8 أدناه مقارنة الطريقة والنتائج التجريبية للاجتثاث في مهمة الكشف عن هدف الفيديو.

ويبين الشكل 9 أدناه النتائج التجريبية للتعرف على إجراءات الفيديو.

يوضح الجدول 2 أدناه نتائج وقت التشغيل (بالملي ثانية) على وحدة المعالجة المركزية (Xeon Silver 4214، 2.2 جيجا هرتز) ووحدة معالجة الرسومات (NVIDIA RTX3090). ويمكن ملاحظة أن زيادة السرعة الناتجة عن تكرار الوقت على وحدة معالجة الرسومات يمكن أن تصل إلى 1.74 مرات، ويمكن أن يصل التحسن في وحدة المعالجة المركزية إلى 2.47 مرة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت