طريقة جديلة بصرية جديدة SoM (مجموعة العلامات) ، والتي حسنت فهم المحتوى المرئي لنموذج OpenAI متعدد الوسائط الكبير GPT-4V.
المصدر الأصلي: قلب الآلة
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
في الآونة الأخيرة ، شهدنا تقدما كبيرا في نماذج اللغة الكبيرة (LLMs). على وجه الخصوص ، أدى إطلاق المحولات التوليدية المدربة مسبقا ، أو GPTs ، إلى العديد من الاختراقات في الصناعة والأوساط الأكاديمية. منذ إصدار GPT-4 ، اجتذبت النماذج الكبيرة متعددة الوسائط (LMMs) اهتماما متزايدا في مجتمع البحث ، مع تكريس الكثير من العمل لبناء GPT-4 متعدد الوسائط.
في الآونة الأخيرة ، حظي GPT-4V (ision) باهتمام خاص بسبب إدراكه متعدد الوسائط وقدراته المنطقية الممتازة. ومع ذلك ، على الرغم من قدرات فهم اللغة المرئية غير المسبوقة ل GPT-4V ، فإن أساسها البصري الدقيق (الإدخال عبارة عن صورة ووصف كائن مقابل ، والإخراج عبارة عن مربع يصف كائنا) ضعيف نسبيا ، أو لم يتم تطويره بعد.
على سبيل المثال ، عندما يسأل المستخدم "ما هو الكائن الموجود على الجانب الأيسر من الكمبيوتر المحمول على اليمين؟" في الشكل أدناه. يعطي GPT-4V إجابة خاطئة للكوب. ثم يسأل المستخدم ، "أريد أن أجد مقعدا على النافذة ، أين يمكنني الجلوس؟" أجاب GPT-4V أيضا بشكل غير صحيح.
بعد إدراك المشاكل المذكورة أعلاه ، اقترح باحثون من Microsoft وجامعة هونغ كونغ للعلوم والتكنولوجيا ومؤسسات أخرى طريقة رؤية جديدة Set-of-Mark (SoM) لحل مشكلة GPT-4V في مهام الرؤية الدقيقة.
* عنوان الورقة:
الصفحة الرئيسية الورقية:
كما هو موضح في الشكل 1 (يمين) ، يستخدم SoM نموذج تجزئة تفاعلي مثل SAM لتقسيم الصورة إلى مناطق بمستويات مختلفة من الدقة وإضافة مجموعة من العلامات إلى هذه المناطق ، مثل الأبجدية الرقمية ، القناع ، المربع. استخدم صورة مع علامة كإدخال لحل المشكلة أعلاه.
دعونا نلقي نظرة على التأثير أولا ، GPT-4V على اليسار ، GPT-4V + SoM على اليمين ، من الواضح أن التصنيف الأخير أكثر تفصيلا ودقة.
لا يزال المثال أدناه كما هو ، وتأثير GPT-4V + SoM أكثر وضوحا.
بالإضافة إلى ذلك ، بالنسبة لهذه الدراسة ، سأل أحدهم ، "هل SoM يدوي (إدخال يدوي) أم تلقائي؟"
وفقا ل Jianwei Yang ، فإن SoM تلقائي أو شبه تلقائي. قاموا بتجميع العديد من أدوات التجزئة الخاصة بهم ، مثل SEEM و Semantic-SAM و SAM ، لمساعدة المستخدمين على تقسيم الصور تلقائيا لأنفسهم. في الوقت نفسه ، يمكن للمستخدمين أيضا اختيار منطقتهم الخاصة.
SoM للرؤية
الميزة الفريدة لاستخدام SoM GPT-4V هي أنه يمكن أن ينتج مخرجات تتجاوز النص. لأن كل علامة مرتبطة تحديدا بمنطقة صورة ممثلة بقناع، فإن قناع أي علامة مذكورة في مخرجات النص يمكن تتبعه.
تمكن القدرة على إنشاء نص وأقنعة مقترنة SoM GPT-4V من إنشاء نص ترابطي مرئي ، والأهم من ذلك ، دعم مجموعة متنوعة من مهام الرؤية الدقيقة ، وهو ما يمثل تحديا لنماذج GPT-4V الشائعة.
من خلال الهندسة البسيطة ، يسمح SoM باستخدام GPT-4V على نطاق واسع لمجموعة متنوعة من مهام الرؤية ، مثل:
تجزئة صورة المفردات المفتوحة: تطلبت الدراسة من GPT-4V تقديم تمثيل شامل لفئات جميع المناطق المصنفة بالإضافة إلى الفئات المختارة من مجموعة محددة مسبقا.
تجزئة المرجع: بالنظر إلى تعبير مرجعي ، تتمثل مهمة GPT-4V في تحديد المنطقة التي تتطابق بشكل أفضل من المناطق المرشحة التي تم إنشاؤها بواسطة Image Partitioning Toolbox.
تأريض العبارة: يختلف قليلا عن تجزئة المرجع ، يستخدم اقتران العبارة جملا كاملة تتكون من عبارات اسمية متعددة. تطلبت الدراسة من GPT-4V تعيين مناطق مناسبة لجميع العبارات المصنفة.
تجزئة كائن الفيديو: خذ صورتين كمدخلات. الصورة الأولى هي صورة استعلام تحتوي على بعض الكائنات في الصورة الثانية التي يجب التعرف عليها. نظرا لأن GPT-4V يدعم صورا متعددة كمدخلات ، يمكن أيضا تطبيق SoMs على المرئيات المترابطة عبر الإطارات في الفيديو.
التجارب والنتائج
يستخدم الباحثون استراتيجية "فرق تسد" لإجراء التجارب والتقييمات. لكل حالة ، يستخدمون نافذة دردشة جديدة بحيث لا يكون هناك تسرب للسياق أثناء التقييم.
على وجه التحديد ، اختار الباحثون مجموعة فرعية صغيرة من بيانات التحقق من كل مجموعة بيانات. لكل صورة في مجموعة البيانات ، قاموا بتراكب مجموعة من العلامات على المنطقة المستخرجة باستخدام مربع أدوات تجزئة الصورة. في الوقت نفسه ، بناء على مهام محددة ، يستخدم الباحثون أدوات تجزئة مختلفة لاقتراح المناطق.
يسرد الجدول 1 أدناه تفاصيل الإعداد لكل مهمة.
قارن الباحثون طريقتهم بالنماذج التالية:
نموذج خط الأساس GPT-4V للإحداثيات المتوقعة
نموذج خاص ب SOTA
مفتوح المصدر LMM
النتائج الكمية
وترد النتائج التجريبية التفصيلية في الجدول 2 أدناه.
الأول هو مهمة تجزئة الصورة. قارن الباحثون GPT-4V + SoM مع نموذج التجزئة القوي MaskDINO على مجموعة بيانات تجزئة COCO Panoptic و OpenSeeD على مجموعة بيانات تجزئة ADE20K Panoptic .
تظهر النتائج أن أداء العينة الصفرية ل GPT-4V + SoM قريب من MaskDINO المضبوط بدقة وأفضل بكثير من OpenSeeD. يوضح الأداء المماثل ل GPT-4V على COCO و ADE20K قدراته التعميم القوية لمجموعة واسعة من مهام المجال المرئي والدلالي.
ثم جاءت مهمة الإحالة ، حيث قام الباحثون بتقييم نموذج RES و REC على مجموعة بيانات RefCOCOg. استخدموا MaskDINO للتوصل إلى قناع وتراكب القناع والأرقام على الصورة. تم استخدام كل من mIoU كمقياس تقييم ومقارنته بنماذج SOTA الخاصة ب PolyFormer و SEESURE.
تظهر النتائج أن GPT-4V + SoM يتفوق على النماذج المتخصصة مثل Grounding DINO و Polyformer و LMMs مفتوحة المصدر الحديثة مثل Shikra و LLaVA-1.5 و MiniGPT-v2 و Ferret.
تبع ذلك مهمة اقتران العبارة على Flickr30K ، حيث استخدم الباحثون Grounding DINO لإنشاء اقتراحات مربعة لكل صورة. يحقق GPT-4V + SoM أداء أقوى للعينة الصفرية من GLIPv2 و Grounding INO.
أخيرا ، قام الباحثون بتقييم مهمة تجزئة الفيديو على مجموعة بيانات DAVIS2017. يحقق GPT-4V + SoM أفضل أداء تتبع (78.8 J &F) مقارنة بنماذج الرؤية المتخصصة الأخرى.
** دراسات الاجتثاث **
يستكشف الباحثون كيف تؤثر أنواع العلامات على الأداء النهائي لمهام اقتران العبارات على مجموعة بيانات Flickr30k ومقارنة نوعي العلامات. الأول هو الأرقام والأقنعة ، والثاني هو الأرقام والأقنعة والمربعات.
النتائج موضحة في الجدول 3 أدناه ، ويمكن أن تؤدي إضافة مربعات إضافية إلى تحسين الأداء بشكل كبير.
بالإضافة إلى ذلك ، استكشف الباحثون كيف يتصرف GPT-4V عند إنشاء الرموز المميزة مع التعليقات التوضيحية للحقيقة. اختاروا استبدال قناع التجزئة المتوقع بقناع الحقيقة في مجموعة التحقق من صحة RefCOCOg. هذا يعني أن GPT-4V يحتاج فقط إلى تحديد واحد من منطقة عبارة التعليق التوضيحي. كما هو متوقع ، يمكن تحسين أداء التجزئة المرجعية بشكل أكبر ، خاصة إذا كان نموذج التجزئة يحتوي على بعض المناطق المفقودة.
كما هو موضح في الجدول 4 أدناه ، يمكن أن يؤدي استخدام أقنعة الحقيقة في SoM إلى تحسين الأداء على RefCOCOg بنسبة 14.5٪ (mIoU).
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أضف "علامات" إلى الإشارات المرئية ، تجعل Microsoft وغيرها GPT-4V أكثر دقة وأكثر تفصيلا
المصدر الأصلي: قلب الآلة
في الآونة الأخيرة ، شهدنا تقدما كبيرا في نماذج اللغة الكبيرة (LLMs). على وجه الخصوص ، أدى إطلاق المحولات التوليدية المدربة مسبقا ، أو GPTs ، إلى العديد من الاختراقات في الصناعة والأوساط الأكاديمية. منذ إصدار GPT-4 ، اجتذبت النماذج الكبيرة متعددة الوسائط (LMMs) اهتماما متزايدا في مجتمع البحث ، مع تكريس الكثير من العمل لبناء GPT-4 متعدد الوسائط.
في الآونة الأخيرة ، حظي GPT-4V (ision) باهتمام خاص بسبب إدراكه متعدد الوسائط وقدراته المنطقية الممتازة. ومع ذلك ، على الرغم من قدرات فهم اللغة المرئية غير المسبوقة ل GPT-4V ، فإن أساسها البصري الدقيق (الإدخال عبارة عن صورة ووصف كائن مقابل ، والإخراج عبارة عن مربع يصف كائنا) ضعيف نسبيا ، أو لم يتم تطويره بعد.
على سبيل المثال ، عندما يسأل المستخدم "ما هو الكائن الموجود على الجانب الأيسر من الكمبيوتر المحمول على اليمين؟" في الشكل أدناه. يعطي GPT-4V إجابة خاطئة للكوب. ثم يسأل المستخدم ، "أريد أن أجد مقعدا على النافذة ، أين يمكنني الجلوس؟" أجاب GPT-4V أيضا بشكل غير صحيح.
كما هو موضح في الشكل 1 (يمين) ، يستخدم SoM نموذج تجزئة تفاعلي مثل SAM لتقسيم الصورة إلى مناطق بمستويات مختلفة من الدقة وإضافة مجموعة من العلامات إلى هذه المناطق ، مثل الأبجدية الرقمية ، القناع ، المربع. استخدم صورة مع علامة كإدخال لحل المشكلة أعلاه.
دعونا نلقي نظرة على التأثير أولا ، GPT-4V على اليسار ، GPT-4V + SoM على اليمين ، من الواضح أن التصنيف الأخير أكثر تفصيلا ودقة.
الميزة الفريدة لاستخدام SoM GPT-4V هي أنه يمكن أن ينتج مخرجات تتجاوز النص. لأن كل علامة مرتبطة تحديدا بمنطقة صورة ممثلة بقناع، فإن قناع أي علامة مذكورة في مخرجات النص يمكن تتبعه.
من خلال الهندسة البسيطة ، يسمح SoM باستخدام GPT-4V على نطاق واسع لمجموعة متنوعة من مهام الرؤية ، مثل:
التجارب والنتائج
يستخدم الباحثون استراتيجية "فرق تسد" لإجراء التجارب والتقييمات. لكل حالة ، يستخدمون نافذة دردشة جديدة بحيث لا يكون هناك تسرب للسياق أثناء التقييم.
على وجه التحديد ، اختار الباحثون مجموعة فرعية صغيرة من بيانات التحقق من كل مجموعة بيانات. لكل صورة في مجموعة البيانات ، قاموا بتراكب مجموعة من العلامات على المنطقة المستخرجة باستخدام مربع أدوات تجزئة الصورة. في الوقت نفسه ، بناء على مهام محددة ، يستخدم الباحثون أدوات تجزئة مختلفة لاقتراح المناطق.
يسرد الجدول 1 أدناه تفاصيل الإعداد لكل مهمة.
النتائج الكمية
وترد النتائج التجريبية التفصيلية في الجدول 2 أدناه.
تظهر النتائج أن أداء العينة الصفرية ل GPT-4V + SoM قريب من MaskDINO المضبوط بدقة وأفضل بكثير من OpenSeeD. يوضح الأداء المماثل ل GPT-4V على COCO و ADE20K قدراته التعميم القوية لمجموعة واسعة من مهام المجال المرئي والدلالي.
ثم جاءت مهمة الإحالة ، حيث قام الباحثون بتقييم نموذج RES و REC على مجموعة بيانات RefCOCOg. استخدموا MaskDINO للتوصل إلى قناع وتراكب القناع والأرقام على الصورة. تم استخدام كل من mIoU كمقياس تقييم ومقارنته بنماذج SOTA الخاصة ب PolyFormer و SEESURE.
تظهر النتائج أن GPT-4V + SoM يتفوق على النماذج المتخصصة مثل Grounding DINO و Polyformer و LMMs مفتوحة المصدر الحديثة مثل Shikra و LLaVA-1.5 و MiniGPT-v2 و Ferret.
تبع ذلك مهمة اقتران العبارة على Flickr30K ، حيث استخدم الباحثون Grounding DINO لإنشاء اقتراحات مربعة لكل صورة. يحقق GPT-4V + SoM أداء أقوى للعينة الصفرية من GLIPv2 و Grounding INO.
أخيرا ، قام الباحثون بتقييم مهمة تجزئة الفيديو على مجموعة بيانات DAVIS2017. يحقق GPT-4V + SoM أفضل أداء تتبع (78.8 J &F) مقارنة بنماذج الرؤية المتخصصة الأخرى.
** دراسات الاجتثاث **
يستكشف الباحثون كيف تؤثر أنواع العلامات على الأداء النهائي لمهام اقتران العبارات على مجموعة بيانات Flickr30k ومقارنة نوعي العلامات. الأول هو الأرقام والأقنعة ، والثاني هو الأرقام والأقنعة والمربعات.
النتائج موضحة في الجدول 3 أدناه ، ويمكن أن تؤدي إضافة مربعات إضافية إلى تحسين الأداء بشكل كبير.
كما هو موضح في الجدول 4 أدناه ، يمكن أن يؤدي استخدام أقنعة الحقيقة في SoM إلى تحسين الأداء على RefCOCOg بنسبة 14.5٪ (mIoU).