اجعل النماذج الكبيرة تنظر إلى الرسوم البيانية بدلا من أعمال الكتابة! تقترح دراسة جديدة NeurIPS 2023 طريقة استعلام متعددة الوسائط ، وتتحسن الدقة بنسبة 7.8٪

المصدر الأصلي: كيوبيتس

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

قدرة النماذج الكبيرة على "قراءة الصور" قوية جدا ، فلماذا تستمر في البحث عن الأشياء الخاطئة؟

على سبيل المثال ، الخلط بين الخفافيش التي لا تشبهها مع المضارب ، أو عدم التعرف على الأسماك النادرة في بعض مجموعات البيانات ...

هذا لأنه عندما نسمح لنموذج كبير "بالعثور على شيء ما" ، فإننا غالبا ما ندخل ** نص **.

إذا كان الوصف غامضا أو جزئيا جدا ، مثل "الخفافيش" (الخفافيش أو الضرب؟). أو "Cyprinodon diabolis" ، وسيتم الخلط الذكاء الاصطناعي.

هذا يؤدي إلى استخدام نماذج كبيرة للقيام ** الكشف عن الكائنات ** ، وخاصة العالم المفتوح (مشهد غير معروف) مهام الكشف عن الكائنات ، وغالبا ما يكون التأثير ليس جيدا كما هو متوقع.

الآن ، ورقة مدرجة في NeurIPS 2023 قد حلت هذه المشكلة أخيرا.

تقترح هذه الورقة طريقة للكشف عن الكائنات ** MQ-Det ** بناء على الاستعلام متعدد الوسائط ، والذي يحتاج فقط إلى إضافة مثال صورة إلى الإدخال ، والذي يمكن أن يحسن بشكل كبير من دقة العثور على الأشياء في النماذج الكبيرة.

في مجموعة بيانات الكشف المعيارية LVIS ، تعمل MQ-Det على تحسين دقة GLIP لنماذج الكشف الكبيرة السائدة بنحو 7.8٪ في المتوسط ، وتحسن دقة 13 مهمة معيارية صغيرة لعينة المصب بمتوسط 6.3٪.

كيف يتم ذلك بالضبط؟ لنلقي نظرة.

تم استنساخ ما يلي من مؤلف الورقة ، Zhihu blogger @Qinyuanxia:

جدول المحتويات

  • MQ-Det: نموذج كبير للكشف عن كائن العالم المفتوح للاستعلام متعدد الوسائط
  • 1.1 من الاستعلام النصي إلى الاستعلام متعدد الوسائط
  • 1.2 MQ-Det التوصيل والتشغيل متعدد الوسائط نموذج نموذج الاستعلام
  • 1.3 MQ-Det استراتيجية التدريب الفعال
  • 1.4 النتائج التجريبية: تقييم خال من الضبط الدقيق *1.5 النتائج التجريبية: تقييم قليل اللقطات
  • 1.6 استعلام متعدد الوسائط عن احتمال اكتشاف الكائن

MQ-Det: نموذج كبير لاكتشاف كائنات العالم المفتوح للاستعلام متعدد الوسائط **

الكشف عن الكائنات المستحثة متعددة الوسائط في البرية

رابط الورق:

عنوان الرمز:**

### 1.1 من الاستعلام النصي إلى الاستعلام متعدد الوسائط

** صورة واحدة تساوي ألف كلمة **: مع ظهور التدريب المسبق الرسومي ، بمساعدة الدلالات المفتوحة للنص ، دخل اكتشاف الأشياء تدريجيا مرحلة إدراك العالم المفتوح. لهذا السبب ، تتبع العديد من نماذج الكشف الكبيرة نمط الاستعلام النصي ، أي استخدام أوصاف النص الفئوي للاستعلام عن الأهداف المحتملة في الصور المستهدفة. غير أن هذا النهج كثيرا ما يواجه مشكلة "واسعة النطاق ولكن غير منقحة".

على سبيل المثال، (1) غالبا ما يكون من الصعب وصف اكتشاف الأجسام الدقيقة الحبيبات (الإصبعيات) في الشكل 1 لمختلف الأنواع الدقيقة الحبيبات ذات النص المحدود، و (2) غموض الفئة ("الخفافيش" يمكن أن يشير إلى كل من الخفاش والمضرب).

ومع ذلك ، يمكن حل المشكلات المذكورة أعلاه عن طريق أمثلة الصور ، والتي توفر أدلة ميزة أكثر ثراء للكائن الهدف من النص ، ولكن في نفس الوقت يحتوي النص على ** تعميم قوي **.

لذلك ، أصبحت كيفية الجمع بين طريقتي الاستعلام بشكل عضوي فكرة طبيعية.

صعوبات في الحصول على قدرات الاستعلام المتعدد الوسائط: هناك ثلاثة تحديات في كيفية الحصول على مثل هذا النموذج مع الاستعلامات متعددة الوسائط: (1) يمكن أن يؤدي الضبط المباشر مع أمثلة محدودة للصور بسهولة إلى نسيان كارثي ؛ (2) سيكون لتدريب نموذج كشف كبير من الصفر تعميم جيد ولكن الاستهلاك الضخم ، على سبيل المثال ، يتطلب GLIP للتدريب ببطاقة واحدة 480 يوما من التدريب مع حجم بيانات 30 مليون.

اكتشاف كائن الاستعلام متعدد الوسائط: بناء على الاعتبارات المذكورة أعلاه ، يقترح المؤلف استراتيجية تصميم وتدريب نموذج بسيطة وفعالة - MQ-Det.

تقوم MQ-Det بإدراج عدد صغير من وحدات الإدراك المسورة (GCPs) لتلقي مدخلات الأمثلة المرئية على أساس النموذج الكبير الحالي للكشف عن استعلام النص المجمد ، وتصمم استراتيجية تدريب على التنبؤ بلغة قناع الحالة المرئية للحصول بكفاءة على كاشف للاستعلامات متعددة الوسائط عالية الأداء.

1.2 بنية نموذج الاستعلام متعدد الوسائط MQ-Det للتوصيل والتشغيل

** **####### الشكل 1 مخطط معماري لطريقة MQ-Det

** وحدة الإدراك المسور **

كما هو موضح في الشكل 1 ، يقوم المؤلف بإدراج وحدة توعية البوابات (GCP) طبقة تلو الأخرى على جانب مشفر النص للنموذج الكبير لاكتشاف استعلام النص المجمد الحالي ، ويمكن تمثيل وضع عمل GCP بإيجاز بالصيغة التالية:

بالنسبة لفئة ith ، أدخل المثال المرئي السادس ، والذي يتقاطع أولا (X-MHA) مع الصورة المستهدفة I

لتوسيع قدراتها التمثيلية ، ثم نص كل فئة ti والمثال المرئي للفئة المقابلة

تنفيذ الحصول على الاهتمام المتقاطع

، وبعد ذلك يتم تحسين النص الأصلي ti والتعزيز البصري للنص بواسطة بوابة وحدة بوابة

الانصهار للحصول على إخراج الطبقة الحالية

。 يتبع هذا التصميم البسيط ثلاثة مبادئ: (1) قابلية التوسع في الفئة. (2) الاكتمال الدلالي ؛ (3) مكافحة فقدان الذاكرة ، يمكن العثور على مناقشة محددة في النص الأصلي.

**1.3 استراتيجية التدريب الفعال MQ-Det **

** تدريب على التعديل يعتمد على كاشف استعلام اللغة المجمدة **

نظرا لأن النموذج الكبير للكشف عن ما قبل التدريب الحالي للاستعلام النصي نفسه لديه تعميم جيد ، يعتقد المؤلفون أنه يحتاج فقط إلى إجراء تعديلات طفيفة مع التفاصيل المرئية على أساس ميزات النص الأصلية.

في المقالة ، هناك أيضا دليل تجريبي محدد على أنه من السهل إحداث نسيان كارثي بعد فتح معلمات النموذج الأصلي المدرب مسبقا والضبط الدقيق ، ولكن فقدان القدرة على اكتشاف العالم المفتوح.

لذلك ، يمكن ل MQ-Det إدراج المعلومات المرئية بكفاءة في كاشف استعلام النص الحالي على أساس الكاشف المدرب مسبقا لاستعلام النص المجمد وتعديل وحدة GCP المدرجة فقط عن طريق التدريب.

في الورقة ، يطبق المؤلفون تقنيات التصميم الهيكلي والتدريب ل MQ-Det على نماذج SOTA الحالية GLIP و GroundingDINO على التوالي للتحقق من تنوع الطريقة.

** استراتيجية التدريب على التنبؤ بلغة القناع مع الحالة البصرية **

يقترح المؤلفون أيضا استراتيجية تدريب تنبؤية للغة الإخفاء مكيفة بصريا لحل مشكلة كسل التعلم الناجم عن تجميد النماذج المدربة مسبقا.

يعني ما يسمى بالكسل التعليمي أن الكاشف يميل إلى الحفاظ على خصائص استعلام النص الأصلي أثناء عملية التدريب ، وبالتالي تجاهل ميزات الاستعلام المرئي المضافة حديثا.

لهذا الغرض ، يتم استخدام MQ-Det بشكل عشوائي أثناء التدريب[MASK] يحل الرمز المميز محل الرمز المميز للنص ، مما يجبر النموذج على التعلم من جانب ميزة الاستعلام المرئي ، وهي:

على الرغم من أن هذه الاستراتيجية بسيطة ، إلا أنها فعالة للغاية ، ومن النتائج التجريبية ، حققت هذه الاستراتيجية تحسنا كبيرا في الأداء.

**1.4 النتائج التجريبية: تقييم خال من الضبط الدقيق **

خالية من الضبط: تقترح MQ-Det استراتيجية تقييم أكثر عملية: * خالية من الضبط * ، مقارنة بالتقييم التقليدي صفر اللقطة الذي يستخدم نص الفئة فقط. يتم تعريفه على أنه اكتشاف الكائنات باستخدام نص الفئة أو أمثلة الصور أو مزيج من الاثنين معا دون أي ضبط دقيق.

ضمن الإعداد الخالي من الضبط الدقيق ، يختار MQ-Det 5 أمثلة مرئية لكل فئة ، ويجمع بين نص الفئة لاكتشاف الكائن ، بينما لا تدعم الطرز الموجودة الأخرى الاستعلام المرئي ، ويمكنها فقط استخدام أوصاف النص العادي لاكتشاف الكائن. يوضح الجدول أدناه النتائج على LVIS MiniVal و LVIS v1.0. يمكن العثور على أن إدخال الاستعلام متعدد الوسائط قد حسن بشكل كبير من قدرة اكتشاف الكائنات في العالم المفتوح.

** **###### الجدول 1 الأداء الخالي من الضبط الدقيق لكل نموذج كشف في إطار مجموعة بيانات LVIS المعيارية

كما يتضح من الجدول 1 ، قام MQ-GLIP-L بتحسين AP بأكثر من 7٪ على أساس GLIP-L ، والتأثير كبير جدا!

**1.5 النتائج التجريبية: تقييم قليل الطلقات **

** **###### الجدول 2 أداء كل نموذج في ODinW-35 و 13 مجموعة فرعية من ODinW-13 في 35 مهمة كشف

أجرى المؤلفون كذلك تجارب شاملة في ODinW-35 ، وهي مهمة اكتشاف 35 في المصب. كما يتضح من الجدول 2 ، لا تتمتع MQ-Det بأداء قوي خال من الضبط الدقيق فحسب ، بل تتمتع أيضا بقدرات جيدة للكشف عن العينات الصغيرة ، مما يؤكد بشكل أكبر إمكانات الاستعلامات متعددة الوسائط. يوضح الشكل 2 أيضا التحسن الكبير في MQ-Det إلى GLIP.

** **###### الشكل 2 مقارنة كفاءة استخدام البيانات؛ المحور الأفقي: عدد عينات التدريب ، المحور الرأسي: متوسط AP على OdinW-13

**1.6 آفاق اكتشاف كائن الاستعلام متعدد الوسائط **

كمجال بحثي قائم على التطبيقات العملية ، يولي اكتشاف الأشياء اهتماما كبيرا لهبوط الخوارزميات.

على الرغم من أن نموذج اكتشاف كائن استعلام النص العادي السابق يظهر تعميما جيدا ، إلا أنه من الصعب تغطية المعلومات الدقيقة في الكشف الفعلي عن العالم المفتوح الصيني ، كما أن دقة المعلومات الغنية في الصورة تكمل هذا الرابط تماما.

حتى الآن ، يمكننا أن نجد أن النص عام ولكنه ليس دقيقا ، وأن الصورة دقيقة ولكنها ليست عامة ، وإذا تمكنا من الجمع بين الاثنين بشكل فعال ، أي الاستعلام متعدد الوسائط ، فسوف يعزز اكتشاف كائن العالم المفتوح للمضي قدما.

اتخذت MQ-Det الخطوة الأولى في الاستعلام متعدد الوسائط ، ويظهر تحسن أدائها الكبير أيضا الإمكانات الكبيرة للكشف عن هدف الاستعلام متعدد الوسائط.

في الوقت نفسه ، يوفر إدخال أوصاف النص والأمثلة المرئية للمستخدمين المزيد من الخيارات ، مما يجعل اكتشاف الكائنات أكثر مرونة وسهولة في الاستخدام.

الرابط الأصلي:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت