* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *
في الشهر الماضي ، أطلقت ChatGPT رسميا قدرات التعرف على الصور والكلام.
في وقت سابق من هذا الشهر ، أصدرت Microsoft نسخة متعددة الوسائط من 166 صفحة من المستندات ذات الصلة ب GPT-4V ، والتي توضح بالتفصيل وظائف واستخدام GPT-4V ، والتي جذبت اهتماما واسع النطاق في الصناعة.
ومع ذلك ، لا ينبغي التفوق على Google في السباق على نماذج اللغة المرئية. **
في الآونة الأخيرة ، أطلقت Google Research و Google DeepMind و Google Cloud بشكل مشترك نموذج لغة بصرية أصغر وأسرع وأكثر قوة (VLM) ، PaLI-3 ، وهو منافس بشكل كبير مع الطرز المماثلة التي تكون أكبر 10 مرات.
قارن الباحثون نموذج المحول المرئي (ViT) الذي تم تدريبه مسبقا باستخدام أهداف فئوية مع نموذج التباين المدرب مسبقا (SigLIP) ووجدوا أنه في حين كان أداء PaLI-3 ضعيفا قليلا على معايير تصنيف الصور القياسية ، أظهر PaLI المستند إلى SigLIP أداء ممتازا في مختلف المعايير متعددة الوسائط ، خاصة في التوطين وفهم النص.
تم نشر الورقة البحثية ، بعنوان "* نماذج لغة الرؤية PaLI-3: أصغر وأسرع وأقوى *" على موقع ما قبل الطباعة arXiv.
يعتقد فريق البحث أن PaLI-3 مع 5 مليارات معلمة فقط قد أعاد إحياء البحث حول المكونات الأساسية ل VLMs المعقدة ، مما قد يؤدي إلى تطوير جيل جديد من النماذج الأكبر.
** التعلم متعدد الوسائط عالي الدقة **
في الآونة الأخيرة ، استخدمت نماذج اللغة المرئية الكبيرة أجهزة تشفير الصور المدربة مسبقا في نماذجها الأكبر ، وبعضها تم تدريبه مسبقا باستخدام التصنيف الخاضع للإشراف (مثل PaLI و PaLI-X و Flamingo و PaLM-E) ، وبعضها يستخدم مشفر CLIP المدرب مسبقا (مثل BLIPv2 و CrossTVR و ChatBridge) ، وبعضها يستخدم التدريب المسبق متعدد الوسائط المخصص (مثل BEiT3 و CoCaو SimVLM).
** تتكون طريقة التدريب لهذه الدراسة من ثلاثة مكونات رئيسية: التدريب المسبق التبايني لأجهزة تشفير الصور على بيانات نص الصورة على نطاق الشبكة ، وتحسين مزج بيانات التدريب متعدد الوسائط PaLI ، والتدريب بدقة أعلى. **
في مرحلة التدريب المسبق أحادية النمط ، يستخدم برنامج تشفير الصور بروتوكول تدريب SigLIP للتدريب المسبق المقارن على إقران نص الصورة على الويب. استخدم الباحثون طريقة تصفية قائمة على النموذج حافظت على حوالي 40 بالمائة من الاقتران. يتم تدريب برنامج تشفير الصور بدقة 224×224. وحدة فك ترميز النص هي نموذج 3B UL2 تم تدريبه على برنامج إزالة الضوضاء الهجين.
في مرحلة التدريب متعدد الوسائط ، قام الباحثون بدمج جهاز تشفير الصور مع وحدة فك ترميز النص لتشكيل نموذج PaLI. تم تدريب هذا النموذج على المهام متعددة الوسائط ، مع الحفاظ على برنامج تشفير الصور مجمدا ، باستخدام الدقة الأصلية (224×224).
يأتي مزيج البيانات الرئيسي من مجموعات بيانات WebLI ، التي تمت تصفيتها واستخدامها مع أهداف تدريب محددة. تشمل العناصر الأخرى التسميات التوضيحية متعددة اللغات ، ومعالجة OCR ، و VQA و VQG عبر اللغات ، و VQA المدرك للكائنات ، واكتشاف الكائنات. على الرغم من عدم تضمين المهام أو البيانات من الفيديو ، إلا أن PaLI-3 لا يزال قادرا على المنافسة في هذه المعايير بفضل برنامج تشفير الصور القوي. بالإضافة إلى ذلك ، تم تحسين فهم المستندات والصور بشكل أكبر عن طريق إضافة مستندات PDF تحتوي على نصوص كثيفة وصور ويب ، مثل الملصقات أو المستندات ، بالإضافة إلى نص بأكثر من 100 لغة ، إلى WebLI.
أثناء مرحلة زيادة الدقة ، تتم دراسة دقة PaLI-3 عن طريق ضبط النموذج بأكمله (إذابة مشفر الصورة) واستخدام دروس قصيرة تزيد الدقة تدريجيا ، مع الحفاظ على نقاط التفتيش بدقة 812×812 و 1064×1064. يركز مزج البيانات بشكل أساسي على الأجزاء التي تتضمن تحديد المواقع المرئية للنص واكتشاف الكائنات.
**تحسين فهم الصورة ومهمة تحديد موضع النص **
أولا ، أجرى الباحثون مقارنة مضبوطة لنماذج ViT المختلفة في إطار PaLI. وجد أنه على الرغم من أن نموذج SigLIP كان له أداء ضعيف في التصنيف الخطي للعينة الصغيرة ، عند استخدامه في PaLI-3 ، قدم نموذج SigLIP مكاسب متواضعة في الأداء في المهام "البسيطة" مثل التسميات التوضيحية والإجابة على الأسئلة ، وتحسينات كبيرة على نص المشهد "المعقد" ومهام الفهم المكاني مثل متغيرات TextVQA و RefCOCO. **
ثم تم تقييم PaLI-3 في مهمة فهم النص الموضوعة بصريا ، مع الصور في مجموعات البيانات التي تتراوح من الصور الطبيعية والرسوم التوضيحية والمستندات وواجهات المستخدم. ** يحقق PaLI-3 أداء متطورا في معظم معايير الترجمة و VQA ، مع أو بدون إدخال OCR خارجي. الاستثناءات الوحيدة هي AI2D و ChartQA ، والتي لا تتطلب الفهم فحسب ، بل تتطلب أيضا تفكيرا قويا حول الرسوم البيانية. بالنسبة لكلا المعيارين ، يتخلف PaLI-3 قليلا عن PaLI-X.
بالإضافة إلى ذلك ، وسع الباحثون قدرات PaLI-3 للتنبؤ بأقنعة التجزئة ذات المخرجات الشبيهة باللغة. تظهر النتائج التجريبية أنه بالنسبة لهذا النوع من مهام التوطين ، يكون التدريب المسبق المقارن أكثر فعالية من التصنيف قبل التدريب. ** يتفوق طراز PaLI-3 الكامل قليلا على أحدث الأساليب من حيث تمثيل الإصبع. **
في قسم فهم الصورة الطبيعية ، تم تقييم PaLI-3 على مهام فهم اللغة المرئية العامة ، بما في ذلك COCO caption و VQAv2 ، ** على الرغم من أنه أصغر بكثير في الحجم مقارنة بنماذج SOTA الحديثة ، إلا أن PaLI-3 كان أداؤه جيدا للغاية على هذه المعايير. **
في أقسام التسميات التوضيحية للفيديو والأسئلة والأجوبة ، قام الباحثون بضبط وتقييم نموذج PaLI-3 على 4 معايير تسميات توضيحية للفيديو: MSR-VTT و VATEX و ActivityNet Captions و Spoken Moments in Time. ثم تم إجراء نفس الاختبار على 3 معايير للإجابة على أسئلة الفيديو: NExT-QA و MSR-VTT-QA و ActivityNet-QA. **على الرغم من عدم التدريب المسبق على بيانات الفيديو، حقق PaLI-3 نتائج ممتازة لضمان جودة الفيديو بحجم طراز أصغر. **
بشكل عام ، في هذه الدراسة ، تعمق الباحثون في التدريب المسبق لأجهزة تشفير الصور في VLM ، وتحديدا نماذج من نوع PaLI. لأول مرة ، تمت مقارنة طريقتي التصنيف قبل التدريب ونص الصورة (التباين) قبل التدريب بوضوح ووجد أن الأخير يؤدي إلى VLM أفضل وأكثر كفاءة ، خاصة في مهام التعريب وفهم النص.
بالإضافة إلى ذلك ، لاحظ الباحثون في الورقة: "هذا جانب صغير واحد فقط من VLM ، ونأمل أن تلهم هذه الدراسة ونتائجها استكشافا أعمق للعديد من الجوانب الأخرى لتدريب VLM." "
رابط الورق:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
وجه GPT-4V! ظهر نموذج اللغة المرئية PaLI-3 من Google ، أصغر وأسرع وأقوى
المصدر: العناوين الأكاديمية
في الشهر الماضي ، أطلقت ChatGPT رسميا قدرات التعرف على الصور والكلام.
في وقت سابق من هذا الشهر ، أصدرت Microsoft نسخة متعددة الوسائط من 166 صفحة من المستندات ذات الصلة ب GPT-4V ، والتي توضح بالتفصيل وظائف واستخدام GPT-4V ، والتي جذبت اهتماما واسع النطاق في الصناعة.
في الآونة الأخيرة ، أطلقت Google Research و Google DeepMind و Google Cloud بشكل مشترك نموذج لغة بصرية أصغر وأسرع وأكثر قوة (VLM) ، PaLI-3 ، وهو منافس بشكل كبير مع الطرز المماثلة التي تكون أكبر 10 مرات.
قارن الباحثون نموذج المحول المرئي (ViT) الذي تم تدريبه مسبقا باستخدام أهداف فئوية مع نموذج التباين المدرب مسبقا (SigLIP) ووجدوا أنه في حين كان أداء PaLI-3 ضعيفا قليلا على معايير تصنيف الصور القياسية ، أظهر PaLI المستند إلى SigLIP أداء ممتازا في مختلف المعايير متعددة الوسائط ، خاصة في التوطين وفهم النص.
تم نشر الورقة البحثية ، بعنوان "* نماذج لغة الرؤية PaLI-3: أصغر وأسرع وأقوى *" على موقع ما قبل الطباعة arXiv.
** التعلم متعدد الوسائط عالي الدقة **
في الآونة الأخيرة ، استخدمت نماذج اللغة المرئية الكبيرة أجهزة تشفير الصور المدربة مسبقا في نماذجها الأكبر ، وبعضها تم تدريبه مسبقا باستخدام التصنيف الخاضع للإشراف (مثل PaLI و PaLI-X و Flamingo و PaLM-E) ، وبعضها يستخدم مشفر CLIP المدرب مسبقا (مثل BLIPv2 و CrossTVR و ChatBridge) ، وبعضها يستخدم التدريب المسبق متعدد الوسائط المخصص (مثل BEiT3 و CoCaو SimVLM).
** تتكون طريقة التدريب لهذه الدراسة من ثلاثة مكونات رئيسية: التدريب المسبق التبايني لأجهزة تشفير الصور على بيانات نص الصورة على نطاق الشبكة ، وتحسين مزج بيانات التدريب متعدد الوسائط PaLI ، والتدريب بدقة أعلى. **
في مرحلة التدريب المسبق أحادية النمط ، يستخدم برنامج تشفير الصور بروتوكول تدريب SigLIP للتدريب المسبق المقارن على إقران نص الصورة على الويب. استخدم الباحثون طريقة تصفية قائمة على النموذج حافظت على حوالي 40 بالمائة من الاقتران. يتم تدريب برنامج تشفير الصور بدقة 224×224. وحدة فك ترميز النص هي نموذج 3B UL2 تم تدريبه على برنامج إزالة الضوضاء الهجين.
في مرحلة التدريب متعدد الوسائط ، قام الباحثون بدمج جهاز تشفير الصور مع وحدة فك ترميز النص لتشكيل نموذج PaLI. تم تدريب هذا النموذج على المهام متعددة الوسائط ، مع الحفاظ على برنامج تشفير الصور مجمدا ، باستخدام الدقة الأصلية (224×224).
أثناء مرحلة زيادة الدقة ، تتم دراسة دقة PaLI-3 عن طريق ضبط النموذج بأكمله (إذابة مشفر الصورة) واستخدام دروس قصيرة تزيد الدقة تدريجيا ، مع الحفاظ على نقاط التفتيش بدقة 812×812 و 1064×1064. يركز مزج البيانات بشكل أساسي على الأجزاء التي تتضمن تحديد المواقع المرئية للنص واكتشاف الكائنات.
**تحسين فهم الصورة ومهمة تحديد موضع النص **
أولا ، أجرى الباحثون مقارنة مضبوطة لنماذج ViT المختلفة في إطار PaLI. وجد أنه على الرغم من أن نموذج SigLIP كان له أداء ضعيف في التصنيف الخطي للعينة الصغيرة ، عند استخدامه في PaLI-3 ، قدم نموذج SigLIP مكاسب متواضعة في الأداء في المهام "البسيطة" مثل التسميات التوضيحية والإجابة على الأسئلة ، وتحسينات كبيرة على نص المشهد "المعقد" ومهام الفهم المكاني مثل متغيرات TextVQA و RefCOCO. **
بالإضافة إلى ذلك ، وسع الباحثون قدرات PaLI-3 للتنبؤ بأقنعة التجزئة ذات المخرجات الشبيهة باللغة. تظهر النتائج التجريبية أنه بالنسبة لهذا النوع من مهام التوطين ، يكون التدريب المسبق المقارن أكثر فعالية من التصنيف قبل التدريب. ** يتفوق طراز PaLI-3 الكامل قليلا على أحدث الأساليب من حيث تمثيل الإصبع. **
في قسم فهم الصورة الطبيعية ، تم تقييم PaLI-3 على مهام فهم اللغة المرئية العامة ، بما في ذلك COCO caption و VQAv2 ، ** على الرغم من أنه أصغر بكثير في الحجم مقارنة بنماذج SOTA الحديثة ، إلا أن PaLI-3 كان أداؤه جيدا للغاية على هذه المعايير. **
بشكل عام ، في هذه الدراسة ، تعمق الباحثون في التدريب المسبق لأجهزة تشفير الصور في VLM ، وتحديدا نماذج من نوع PaLI. لأول مرة ، تمت مقارنة طريقتي التصنيف قبل التدريب ونص الصورة (التباين) قبل التدريب بوضوح ووجد أن الأخير يؤدي إلى VLM أفضل وأكثر كفاءة ، خاصة في مهام التعريب وفهم النص.
بالإضافة إلى ذلك ، لاحظ الباحثون في الورقة: "هذا جانب صغير واحد فقط من VLM ، ونأمل أن تلهم هذه الدراسة ونتائجها استكشافا أعمق للعديد من الجوانب الأخرى لتدريب VLM." "
رابط الورق: