في مجال النماذج الكبيرة متعددة الوسائط (اللغة المرئية) ، في حين أن المعلمات المتنافسة للفوز بالأداء ، والسعي وراء معلمات أصغر ، وسرعة أكبر ، وأداء أقوى هو مسار بحث آخر.
مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
في عصر النماذج الكبيرة ، توسعت معلمات نماذج اللغة المرئية (VLMs) إلى عشرات أو حتى مئات المليارات ، مما يجعل الأداء يستمر في الزيادة. في الوقت نفسه ، لا تزال النماذج الأصغر مهمة ، فهي أسهل في التدريب والخدمة ، وأكثر صداقة للبيئة ، وتوفر دورات بحث أسرع لتصميم النموذج.
في هذا المجال ، أطلقت Google Research نموذجا يسمى PaLI (لغة وصورة Pathways) العام الماضي. كنموذج كبير متعدد الوسائط ، فإن أحد الهياكل الرئيسية ل PaLI هو إعادة استخدام العمود الفقري الكبير أحادي الوسائط للغة والنمذجة المرئية ، وإعادة استخدام mT5-XXL مع معلمات 13B من حيث اللغة ، و ViT-G مع معلمات 2B و ViT-e مع معلمات 4B من حيث الرؤية. في ذلك الوقت ، حققت PaLI أداء أفضل من معظم الطرز القديمة والجديدة.
واصلت Google منذ ذلك الحين التركيز على النمذجة الأصغر حجما ، واقترحت مؤخرا PaLI-3 ، نموذج الجيل الثالث من سلسلة PaLI. باستخدام نموذج أساسي مدرب مسبقا مع معلمات 5B فقط ، قاموا بتحسين طريقة التدريب وحققوا نتائج SOTA تنافسية وجديدة على معايير VLM متعددة.
تتكون الطريقة من ثلاثة أجزاء رئيسية ، وهي التدريب المسبق المقارن لأجهزة تشفير الصور على بيانات نص الصورة على نطاق الويب ، ومجموعة البيانات الهجينة المحسنة للتدريب متعدد الوسائط PaLI ، والتدريب عالي الاستبانة.
*المؤلفون من Google Research وGoogle DeepMind وGoogle Cloud. *
عنوان الورقة:
يوضح الشكل أدناه نظرة عامة على نموذج 5B PaLI-3 ، حيث يتم ترميز الصور بشكل فردي في رمز مرئي من خلال مقارنة نموذج الرؤية 2B SigLIP المدرب مسبقا. بعد ذلك ، جنبا إلى جنب مع الاستعلام ، يتم تمرير هذه الرموز المرئية إلى محول UL2 لبنية وحدة فك التشفير 3B ، والتي تولد الإجابة المتوقعة. في هذا الإعداد ، مقارنة بنموذج PaLI السابق لنموذج تصنيف واحد تم تدريبه مسبقا ، يوفر النموذج المدرب مسبقا رمزا مميزا أكثر فائدة بشكل ملحوظ.
ما مدى فعالية ذلك؟ ينفذ PaLI-3 SOTA جديدا على المهام التي تتطلب فهم النص في وضع مرئي وتحديد موضع الهدف ، بما في ذلك 8 مهام لفهم النص في وضع مرئي ومهام تجزئة التعبير المرجعي على مجموعة بيانات RefCOCO. يتفوق PaLI-3 أيضا في مجموعة من مهام الرؤية السرية.
بالإضافة إلى ذلك ، أجرى الباحثون أيضا تجارب الاجتثاث للمقارنة مع نموذج خط الأساس ViT المدرب مسبقا للتصنيف ، وأكدوا كذلك جدوى أجهزة التشفير المرئية المدربة مسبقا على بيانات نصية للصور الصاخبة على نطاق الويب ، وبالتالي أصبحت بديلا مفضلا للتدريب على البيانات السرية.
بالإضافة إلى نموذج 5B PaLI-3 ، استخدم الباحثون أيضا طريقة SigLIP المقترحة مؤخرا لبناء نموذج رؤية تباينة متعدد اللغات SOTA مع معلمات ممتدة إلى 2B.
مقدمة النموذج
معمار
على مستوى أعلى ، تتبع بنية PaLI-3 بنية Chen et al. (2023b; أ): يقوم نموذج ViT بتشفير الصورة كرمز مميز ويتم تمريره إلى محول بنية وحدة فك التشفير جنبا إلى جنب مع مدخلات النص مثل الأسئلة والمطالبات والتعليمات ، مما ينتج عنه إخراج نص.
لنبدأ بالمكون المرئي. استخدم الباحثون طريقة تدريب SigLIP لتهيئة العمود الفقري البصري ل PaLI-3 من نموذج ViT-G / 14 المدرب مسبقا (المعلمة حوالي 2B). باختصار ، قاموا بتدريب نموذج ViT-G / 14 لتضمين الصور ونموذج محول تضمين النص لتضمين الصور والنص ، على التوالي ، بحيث يمكن للمصنفات الثنائية ذات الإنتروبيا المتقاطعة السيني باستخدام منتج نقطة تضمين الصورة والنص أن تصنف بدقة ما إذا كانت الصور والنصوص الخاصة بكل منهما تتوافق مع بعضها البعض.
هذا مشابه للمقطع والمحاذاة ، ولكنه أكثر كفاءة وقابلية للتطوير وقوة. في الوقت نفسه ، تتمثل هذه الطريقة في التدريب المسبق لمكون تضمين صورة ViT ، لذلك عند إدراج ViT في PaLI ، يتم تجاهل محول تضمين النص.
لنلق نظرة على نموذج PaLI الكامل. يشكل إخراج مشفر الصور ViT رمزا مرئيا قبل التجميع ويتم تعيينه خطيا وإضافته إلى الرمز المميز لنص الإدخال المضمن. ثم يتم تمرير هذه الرموز المميزة إلى نموذج فك ترميز 3B UL2 مدرب مسبقا لإنشاء إخراج نصي. يحتوي إدخال النص للنموذج عادة على مطالبات تصف نوع المهمة وتشفر إدخال النص الضروري للمهمة.
تدريب
تتكون عملية التدريب من مراحل متعددة.
المرحلة 0: التدريب المسبق أحادي الوسائط. وفقا لبروتوكول تدريب SigLIP ، يحتوي برنامج تشفير الصور على دقة تدريب تبلغ 224×224 ؛ وحدة فك ترميز النص هي نموذج 3B UL2 تم تدريبه وفقا لإجراء تقليل الضوضاء الهجين الذي وصفه Tay et al.
المرحلة 1: التدريب المتعدد الوسائط. يتم تدريب نموذج PaLI المدمج على المهام والبيانات متعددة الوسائط من خلال الجمع بين مشفر الصور ووحدة فك ترميز النص ، وعند هذه النقطة يظل مشفر الصور مجمدا بدقة 224×224. من خلال التصفية الإرشادية لجودة النص واستخدام هدف تدريب SplitCap ، يتم اشتقاق مكونات المزج الرئيسية مرة أخرى من مجموعة بيانات WebLI.
المرحلة 2: الراقية. يعد الإدخال عالي الدقة طريقة مقبولة على نطاق واسع لتحسين الأداء ، لأنه يمكن إدراك المزيد من التفاصيل في الصورة ولأن النموذج يتم تحسينه عن طريق زيادة طول التسلسل. تزيد هذه المقالة من دقة PaLI-3 عن طريق إذابة برنامج تشفير الصور ، مع الحفاظ على نقاط التفتيش بدقة 812×812 و 1064×1064.
ترحيل المهام. أخيرا ، لكل مهمة فردية (معيار) ، تقوم هذه الورقة بضبط نموذج PaLI-3 على بيانات التدريب للمهمة باستخدام مشفر صور ViT مجمد ؛ بالنسبة لمعظم المهام، تقوم هذه المقالة بضبط نقطة التحقق من دقة 812×812، ولكن بالنسبة لمهمتي فهم المستندات، تزيد هذه المقالة الدقة إلى 1064×1064.
التجارب والنتائج
قارنت التجربة أولا نتائج نماذج ViT المختلفة في إطار PaLI ، ونظر الباحثون في نموذجين ViT: Classif و SigLIP.
تظهر النتائج ، الموضحة في الجدول 1 ، أنه في حين أن نموذج SigLIP يتخلف في التصنيف الخطي للعينة الصغيرة ، باستخدام PaLI-3 ، يوفر نموذج SigLIP مكاسب متواضعة في المهام الأبسط مثل التسميات التوضيحية والإجابة على الأسئلة ، ومكاسب ضخمة في السيناريوهات الأكثر تعقيدا ، وهي مهام النص والفهم المكاني.
بالإضافة إلى ذلك ، قام الباحثون بتقييم PaLI-3 على مجموعات بيانات TextCaps و TextVQA و STVQA و OCRVQA و InfographicVQA و DocVQA و ChartQA و Scree2Words و WidgetCap. تظهر النتائج في الجدول 2 ، حيث يكون PaLI-3 أقل بمقدار 0.7 نقطة فقط من طريقة SOTA عند استخدام نظام OCR خارجي. ومع ذلك ، في حالة عدم وجود مثل هذا النظام الخارجي ، فإن PaLI-3 أعلى بمقدار 4.4 نقطة من الجمع بين جميع طرق SOTA. بالنسبة إلى TextCaps و TextVQA و InfographicVQA و DocVQA ، يتمتع PaLI-3 بميزة 8 نقاط أو أكثر.
تجزئة التعبير المرجعي
قام الباحثون بتوسيع PaLI-3 للتنبؤ بأقنعة التجزئة ذات المخرجات الشبيهة باللغة. للقيام بذلك ، استخدموا Ning et al. (2023) المشفر التلقائي المتغير المتجه (VQ-VAE). يتم تدريب VQ-VAE على تعلم 128 رمزا مميزا للقناع ، ويمكن لجهاز التشفير الخاص به وضع علامة على قناع تجزئة من 64 × 64 بكسل كرموز قناع 16 ، والتي يمكن لوحدة فك الترميز تحويلها مرة أخرى.
قام الباحثون بتدريب PaLI-3 على التنبؤ بقناع تجزئة واحد ، أولا إخراج 4 إحداثيات كنص وتمثيلها كمربعات محيطة. يتبع ذلك 16 رمزا مميزا للقناع ، والتي تمثل الأقنعة داخل المربع المحيط.
ويبين الجدول 1 أن التدريب المسبق على التباين أكثر فعالية من التدريب المسبق على التصنيف لمهام الاستهداف هذه. ويبين الجدول 3 أدناه أن نموذج PaLI-3 الكامل متفوق قليلا على حالة التقنية الصناعية السابقة من حيث تجزئة التعبير المرجعي.
فهم الصورة
بعد ذلك ، قام الباحثون بتقييم PaLI-3 في مهمة فهم اللغة المرئية العامة. كما هو الحال مع عملهم السابق ، لم يستخدموا وحدة OCR خارجية لأن هذه المعايير نادرا ما تتضمن نصا في الصور.
تظهر النتائج أن PaLI-3 أصغر حجما بكثير مقارنة بنماذج SOTA الحديثة ، لكنها تظهر أداء قويا جدا في هذه المعايير. بالنسبة إلى COCO ، يتفوق PaLI-3 على جميع الطرز باستثناء BEiT-3 و 17B و 55B PaLI. في VQAv2 و TallyQA ، يتفوق PaLI-3 على جميع الطرز السابقة باستثناء PaLI-X. بالنسبة لمهام OKVQA ، يتخلف PaLI-3 فقط عن PaLM-E (562B) و PaLI-X (55B) ، لكنه لا يزال يتفوق على طراز Flamingo (80B) المكون من 32 طلقة.
ترجمات الفيديو والأسئلة والأجوبة
قامت الدراسة بضبط وتقييم نموذج PaLI-3 على 4 معايير للتسميات التوضيحية للفيديو: MSR-VTT و VATEX و ActivityNet Captions و Spoken Moments in Time. بالإضافة إلى ذلك ، فعلت الدراسة الشيء نفسه في 3 أسئلة فيديو تجيب على المعايير: NExT-QA و MSR-VTT-QA و ActivityNet-QA.
على الرغم من عدم استخدام بيانات الفيديو للتدريب المسبق ، حقق PaLI-3 نتائج ممتازة لضمان الجودة بالفيديو بحجم نموذج صغير: أداء متطور على MSR-VTT-QA و ActivityNet-QA ، ونتائج تنافسية على NextQA. تسلط التحسينات المستمرة في ضمان الجودة للصورة والفيديو الضوء على فوائد اعتماد ViT المقارن.
بالإضافة إلى ذلك ، يحقق PaLI-3 نتائج ترجمة جيدة جدا للفيديو ، بمتوسط 3 نقاط CIDEr فقط أقل من نتائج SOTA. بالنظر إلى حجم النموذج ، يبدو أن PaLI-3 خيار ممتاز من حيث الأداء والتطبيق العملي.
** تقييم مباشر لتشفير الصور **
قام الباحثون أيضا بتقييم نموذج ViT-G ، والذي يمكن فهمه على أنه ليس PaLI-3 كاملا ، كما هو موضح في الجدول 6.
أولا ، اختبرت الدراسة قدرات تصنيف الصور باستخدام معيار ImageNet القياسي ومتغيراته الأكثر شيوعا. تظهر النتائج أن SigLIP متأخر قليلا في دقة top-1 و v2 ، ولكن نتائج مماثلة في ReaL.
ثانيا ، تبلغ الدراسة عن نتائج النماذج المختلفة على معيار Crossmodal-3600. تظهر النتائج أن نموذج SigLIP ViT-G أفضل بكثير من نموذج ViT-e الأكبر.
أخيرا ، أبلغت الدراسة أيضا عن نتائج فحص خطية ، والتي أظهرت أن SigLIP كان أدنى من النماذج الأخرى.
يقيم الجدولان 7 و 8 الإنصاف والتحيز والمشاكل المحتملة الأخرى في النموذج.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ظهر نموذج اللغة المرئية من Google PaLI-3 ، بمعلمات 5B فقط ، أصغر وأسرع وأقوى
في عصر النماذج الكبيرة ، توسعت معلمات نماذج اللغة المرئية (VLMs) إلى عشرات أو حتى مئات المليارات ، مما يجعل الأداء يستمر في الزيادة. في الوقت نفسه ، لا تزال النماذج الأصغر مهمة ، فهي أسهل في التدريب والخدمة ، وأكثر صداقة للبيئة ، وتوفر دورات بحث أسرع لتصميم النموذج.
في هذا المجال ، أطلقت Google Research نموذجا يسمى PaLI (لغة وصورة Pathways) العام الماضي. كنموذج كبير متعدد الوسائط ، فإن أحد الهياكل الرئيسية ل PaLI هو إعادة استخدام العمود الفقري الكبير أحادي الوسائط للغة والنمذجة المرئية ، وإعادة استخدام mT5-XXL مع معلمات 13B من حيث اللغة ، و ViT-G مع معلمات 2B و ViT-e مع معلمات 4B من حيث الرؤية. في ذلك الوقت ، حققت PaLI أداء أفضل من معظم الطرز القديمة والجديدة.
واصلت Google منذ ذلك الحين التركيز على النمذجة الأصغر حجما ، واقترحت مؤخرا PaLI-3 ، نموذج الجيل الثالث من سلسلة PaLI. باستخدام نموذج أساسي مدرب مسبقا مع معلمات 5B فقط ، قاموا بتحسين طريقة التدريب وحققوا نتائج SOTA تنافسية وجديدة على معايير VLM متعددة.
تتكون الطريقة من ثلاثة أجزاء رئيسية ، وهي التدريب المسبق المقارن لأجهزة تشفير الصور على بيانات نص الصورة على نطاق الويب ، ومجموعة البيانات الهجينة المحسنة للتدريب متعدد الوسائط PaLI ، والتدريب عالي الاستبانة.
عنوان الورقة:
يوضح الشكل أدناه نظرة عامة على نموذج 5B PaLI-3 ، حيث يتم ترميز الصور بشكل فردي في رمز مرئي من خلال مقارنة نموذج الرؤية 2B SigLIP المدرب مسبقا. بعد ذلك ، جنبا إلى جنب مع الاستعلام ، يتم تمرير هذه الرموز المرئية إلى محول UL2 لبنية وحدة فك التشفير 3B ، والتي تولد الإجابة المتوقعة. في هذا الإعداد ، مقارنة بنموذج PaLI السابق لنموذج تصنيف واحد تم تدريبه مسبقا ، يوفر النموذج المدرب مسبقا رمزا مميزا أكثر فائدة بشكل ملحوظ.
بالإضافة إلى ذلك ، أجرى الباحثون أيضا تجارب الاجتثاث للمقارنة مع نموذج خط الأساس ViT المدرب مسبقا للتصنيف ، وأكدوا كذلك جدوى أجهزة التشفير المرئية المدربة مسبقا على بيانات نصية للصور الصاخبة على نطاق الويب ، وبالتالي أصبحت بديلا مفضلا للتدريب على البيانات السرية.
بالإضافة إلى نموذج 5B PaLI-3 ، استخدم الباحثون أيضا طريقة SigLIP المقترحة مؤخرا لبناء نموذج رؤية تباينة متعدد اللغات SOTA مع معلمات ممتدة إلى 2B.
مقدمة النموذج
معمار
على مستوى أعلى ، تتبع بنية PaLI-3 بنية Chen et al. (2023b; أ): يقوم نموذج ViT بتشفير الصورة كرمز مميز ويتم تمريره إلى محول بنية وحدة فك التشفير جنبا إلى جنب مع مدخلات النص مثل الأسئلة والمطالبات والتعليمات ، مما ينتج عنه إخراج نص.
لنبدأ بالمكون المرئي. استخدم الباحثون طريقة تدريب SigLIP لتهيئة العمود الفقري البصري ل PaLI-3 من نموذج ViT-G / 14 المدرب مسبقا (المعلمة حوالي 2B). باختصار ، قاموا بتدريب نموذج ViT-G / 14 لتضمين الصور ونموذج محول تضمين النص لتضمين الصور والنص ، على التوالي ، بحيث يمكن للمصنفات الثنائية ذات الإنتروبيا المتقاطعة السيني باستخدام منتج نقطة تضمين الصورة والنص أن تصنف بدقة ما إذا كانت الصور والنصوص الخاصة بكل منهما تتوافق مع بعضها البعض.
هذا مشابه للمقطع والمحاذاة ، ولكنه أكثر كفاءة وقابلية للتطوير وقوة. في الوقت نفسه ، تتمثل هذه الطريقة في التدريب المسبق لمكون تضمين صورة ViT ، لذلك عند إدراج ViT في PaLI ، يتم تجاهل محول تضمين النص.
لنلق نظرة على نموذج PaLI الكامل. يشكل إخراج مشفر الصور ViT رمزا مرئيا قبل التجميع ويتم تعيينه خطيا وإضافته إلى الرمز المميز لنص الإدخال المضمن. ثم يتم تمرير هذه الرموز المميزة إلى نموذج فك ترميز 3B UL2 مدرب مسبقا لإنشاء إخراج نصي. يحتوي إدخال النص للنموذج عادة على مطالبات تصف نوع المهمة وتشفر إدخال النص الضروري للمهمة.
تدريب
تتكون عملية التدريب من مراحل متعددة.
المرحلة 0: التدريب المسبق أحادي الوسائط. وفقا لبروتوكول تدريب SigLIP ، يحتوي برنامج تشفير الصور على دقة تدريب تبلغ 224×224 ؛ وحدة فك ترميز النص هي نموذج 3B UL2 تم تدريبه وفقا لإجراء تقليل الضوضاء الهجين الذي وصفه Tay et al.
المرحلة 1: التدريب المتعدد الوسائط. يتم تدريب نموذج PaLI المدمج على المهام والبيانات متعددة الوسائط من خلال الجمع بين مشفر الصور ووحدة فك ترميز النص ، وعند هذه النقطة يظل مشفر الصور مجمدا بدقة 224×224. من خلال التصفية الإرشادية لجودة النص واستخدام هدف تدريب SplitCap ، يتم اشتقاق مكونات المزج الرئيسية مرة أخرى من مجموعة بيانات WebLI.
المرحلة 2: الراقية. يعد الإدخال عالي الدقة طريقة مقبولة على نطاق واسع لتحسين الأداء ، لأنه يمكن إدراك المزيد من التفاصيل في الصورة ولأن النموذج يتم تحسينه عن طريق زيادة طول التسلسل. تزيد هذه المقالة من دقة PaLI-3 عن طريق إذابة برنامج تشفير الصور ، مع الحفاظ على نقاط التفتيش بدقة 812×812 و 1064×1064.
ترحيل المهام. أخيرا ، لكل مهمة فردية (معيار) ، تقوم هذه الورقة بضبط نموذج PaLI-3 على بيانات التدريب للمهمة باستخدام مشفر صور ViT مجمد ؛ بالنسبة لمعظم المهام، تقوم هذه المقالة بضبط نقطة التحقق من دقة 812×812، ولكن بالنسبة لمهمتي فهم المستندات، تزيد هذه المقالة الدقة إلى 1064×1064.
التجارب والنتائج
قارنت التجربة أولا نتائج نماذج ViT المختلفة في إطار PaLI ، ونظر الباحثون في نموذجين ViT: Classif و SigLIP.
تظهر النتائج ، الموضحة في الجدول 1 ، أنه في حين أن نموذج SigLIP يتخلف في التصنيف الخطي للعينة الصغيرة ، باستخدام PaLI-3 ، يوفر نموذج SigLIP مكاسب متواضعة في المهام الأبسط مثل التسميات التوضيحية والإجابة على الأسئلة ، ومكاسب ضخمة في السيناريوهات الأكثر تعقيدا ، وهي مهام النص والفهم المكاني.
قام الباحثون بتوسيع PaLI-3 للتنبؤ بأقنعة التجزئة ذات المخرجات الشبيهة باللغة. للقيام بذلك ، استخدموا Ning et al. (2023) المشفر التلقائي المتغير المتجه (VQ-VAE). يتم تدريب VQ-VAE على تعلم 128 رمزا مميزا للقناع ، ويمكن لجهاز التشفير الخاص به وضع علامة على قناع تجزئة من 64 × 64 بكسل كرموز قناع 16 ، والتي يمكن لوحدة فك الترميز تحويلها مرة أخرى.
قام الباحثون بتدريب PaLI-3 على التنبؤ بقناع تجزئة واحد ، أولا إخراج 4 إحداثيات كنص وتمثيلها كمربعات محيطة. يتبع ذلك 16 رمزا مميزا للقناع ، والتي تمثل الأقنعة داخل المربع المحيط.
ويبين الجدول 1 أن التدريب المسبق على التباين أكثر فعالية من التدريب المسبق على التصنيف لمهام الاستهداف هذه. ويبين الجدول 3 أدناه أن نموذج PaLI-3 الكامل متفوق قليلا على حالة التقنية الصناعية السابقة من حيث تجزئة التعبير المرجعي.
بعد ذلك ، قام الباحثون بتقييم PaLI-3 في مهمة فهم اللغة المرئية العامة. كما هو الحال مع عملهم السابق ، لم يستخدموا وحدة OCR خارجية لأن هذه المعايير نادرا ما تتضمن نصا في الصور.
تظهر النتائج أن PaLI-3 أصغر حجما بكثير مقارنة بنماذج SOTA الحديثة ، لكنها تظهر أداء قويا جدا في هذه المعايير. بالنسبة إلى COCO ، يتفوق PaLI-3 على جميع الطرز باستثناء BEiT-3 و 17B و 55B PaLI. في VQAv2 و TallyQA ، يتفوق PaLI-3 على جميع الطرز السابقة باستثناء PaLI-X. بالنسبة لمهام OKVQA ، يتخلف PaLI-3 فقط عن PaLM-E (562B) و PaLI-X (55B) ، لكنه لا يزال يتفوق على طراز Flamingo (80B) المكون من 32 طلقة.
قامت الدراسة بضبط وتقييم نموذج PaLI-3 على 4 معايير للتسميات التوضيحية للفيديو: MSR-VTT و VATEX و ActivityNet Captions و Spoken Moments in Time. بالإضافة إلى ذلك ، فعلت الدراسة الشيء نفسه في 3 أسئلة فيديو تجيب على المعايير: NExT-QA و MSR-VTT-QA و ActivityNet-QA.
على الرغم من عدم استخدام بيانات الفيديو للتدريب المسبق ، حقق PaLI-3 نتائج ممتازة لضمان الجودة بالفيديو بحجم نموذج صغير: أداء متطور على MSR-VTT-QA و ActivityNet-QA ، ونتائج تنافسية على NextQA. تسلط التحسينات المستمرة في ضمان الجودة للصورة والفيديو الضوء على فوائد اعتماد ViT المقارن.
بالإضافة إلى ذلك ، يحقق PaLI-3 نتائج ترجمة جيدة جدا للفيديو ، بمتوسط 3 نقاط CIDEr فقط أقل من نتائج SOTA. بالنظر إلى حجم النموذج ، يبدو أن PaLI-3 خيار ممتاز من حيث الأداء والتطبيق العملي.
** تقييم مباشر لتشفير الصور **
قام الباحثون أيضا بتقييم نموذج ViT-G ، والذي يمكن فهمه على أنه ليس PaLI-3 كاملا ، كما هو موضح في الجدول 6.
أولا ، اختبرت الدراسة قدرات تصنيف الصور باستخدام معيار ImageNet القياسي ومتغيراته الأكثر شيوعا. تظهر النتائج أن SigLIP متأخر قليلا في دقة top-1 و v2 ، ولكن نتائج مماثلة في ReaL.
ثانيا ، تبلغ الدراسة عن نتائج النماذج المختلفة على معيار Crossmodal-3600. تظهر النتائج أن نموذج SigLIP ViT-G أفضل بكثير من نموذج ViT-e الأكبر.
أخيرا ، أبلغت الدراسة أيضا عن نتائج فحص خطية ، والتي أظهرت أن SigLIP كان أدنى من النماذج الأخرى.