GPT-4V صعب من الأمام! يمكن تدريب خريجي جامعة تشجيانغ مفتوح المصدر ومتعدد الوسائط كبير الحجم LLaVA-1.5، و13 مليار معلمة و8 A100s في يوم واحد

المصدر الأصلي: Xinzhiyuan

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

وفي نهاية شهر سبتمبر، أعلنت شركة OpenAI عن رفع الحظر المفروض على قدرات ChatGPT متعددة الوسائط. القدرات السحرية لـ GPT-4V متعدد الوسائط جعلت الجميع يتساءلون: هل هذا GPT-4.5؟

لم يمض وقت طويل بعد ذلك، حتى أصبح منافس GPT-4V مفتوح المصدر، LLaVA-1.5، موجودًا بالفعل!

في أبريل، قام باحثون من جامعة ويسكونسن ماديسون وأبحاث مايكروسوفت وجامعة كولومبيا بفتح مصدر جديد لنموذج كبير متعدد الوسائط جديد LLaVA.

الآن، لا يحقق LLaVA-1.5 الذي تمت ترقيته SOTA في 11 اختبارًا مرجعيًا فحسب، بل يمكنه أيضًا التنافس بشكل مباشر مع GPT-4V.

قام الباحثون بتحسين أداء LLaVA-1.5 بشكل ملحوظ باستخدام CLIP-ViT-L-336px مع رسم خرائط MLP وإضافة بيانات VQA الموجهة نحو المهام الأكاديمية مع مطالبات تنسيق الاستجابة البسيطة.

تظهر النتائج أن LLaVA-1.5، الذي يتمتع ببنية أبسط، لا يتطلب سوى 1.2 مليون بيانات عامة، وهو ما يمكن أن يتفوق على Qwen-VL الذي يستخدم 1.45 مليار بيانات تدريب وHuggingFace IDEFICS (نموذج 80B مشابه لـ Flamingo) الذي يستخدم 130 مليون بيانات.

من بينها، يمكن إكمال تدريب الطراز 13B خلال يوم واحد باستخدام 8 طائرات A100 فقط.

شريط صلب LLaVA-1.5 GPT-4V

يُقال أنه قادر على منافسة GPT-4V، لكن ما هي قوة LLaVA-1.5؟

دعونا نسمح لـ GPT-4V وLLaVA وLLaVA-1.5 pk.

عنوان المشروع:

سؤال: "إذا كانت هناك أخطاء في الوقائع، يرجى الإشارة إليها. وإذا لم يكن الأمر كذلك، من فضلك أخبرني، ما الذي يحدث في الصحراء؟"

كانت إجابة GPT-4V غبية بعض الشيء: "آسف، لا أستطيع الإجابة على هذا السؤال لأنه لا يوجد سياق لإظهار الصحراء التي ذكرتها".

أجابت LLaVA بحق: "في الصورة، تشكل المدينة والشاطئ أفق المدينة، والناس يستمتعون بغروب الشمس. مشهد الشاطئ هذا موجود بالفعل في الصحراء، وهو أمر غير عادي تمامًا."

أعطى الهداف المثالي الوحيد، LLaVA-1.5، الإجابة المثالية: "لا توجد صحراء على الإطلاق في الصورة، ولكن هناك أشجار النخيل والشواطئ وأفق المدينة ومساحة كبيرة من المياه."

بالإضافة إلى ذلك، يمكن لـ LLaVA-1.5 أيضًا استخراج المعلومات من الرسم البياني والاستجابة بالتنسيق المطلوب، مثل إخراجها بتنسيق JSON.

ويمكن ملاحظة أن LLaVA-1.5 قد أكمل المهمة بشكل أساسي، ولا تزال هناك بعض العيوب مقارنة بـ GPT-4V.

وبالمثل، أعط LLaVA-1.5 صورة مليئة بالفواكه والخضروات، ويمكنه تحويل الصورة إلى JSON مثل GPT-4V.

التحليل البصري والتحويل الذكي للبيانات، الأمر بهذه البساطة!

السؤال التالي ليس بهذه السهولة - ماذا تعني هذه الصورة؟

اتضح أن هذا كان رسمًا مبسطًا يعتمد على "البداية" لنولان، ولزيادة الصعوبة تم تغيير اسم الشخصية إلى اسم مستعار.

لم يرتبك LLaVA-1.5 وأجاب بثقة: "هذه صورة عن فيلم "البداية". وهي تظهر المستويات المختلفة في عالم الأحلام، وكل مستوى يمثله خط. الصورة اكتبها على قطعة من الورق و ضع الورقة على الطاولة."

عشاق الطعام يفرحون! ماذا يجب أن تفعل إذا رأيت صورة شهية تجعلك ترغب في تناولها؟

أرسلها مباشرة إلى LLaVA-1.5، وسيقوم بإنشاء وصفة لك بسرعة.

علاوة على ذلك، يمكن لـ LLaVA-1.5 التعرف على رموز التحقق دون "كسر الحماية".

ويمكنه أيضًا اكتشاف العملة الموجودة في الصورة.

الأمر المثير للإعجاب بشكل خاص هو أن LLaVA-1.5 يمكنه أيضًا إخبارك بنوع الكلب الموجود في الصورة.

استخدم بعض مستخدمي الإنترنت Bing لإنشاء صورة لرجل يرتدي معطفًا شتويًا على شاطئ صيفي مشمس، وطلبوا من LLaVA 1.5 الإشارة إلى المشكلات الموجودة في الصورة.

عينها المميزة حادة جدًا ——

هذه صورة تم التلاعب بها أو الفوتوشوب لرجل يرتدي سترة ويقف على الشاطئ. فتح الرجل معطفه وأشرقت عليه الشمس. مشكلة هذه الصورة هي أنها ليست مشهدًا حقيقيًا للشاطئ. لم يكن الرجل واقفا فعليا على الشاطئ ولم تكن الشمس مشرقة عليه. تم تعديل هذه الصورة بالفوتوشوب لخلق وهم مشهد الشاطئ، لكنها لا تمثل المشهد حقًا.

ومع ذلك، فإن قدرة LLaVA-1.5 على كتابة كود الواجهة الأمامية وفقًا للتصميم أضعف.

انطلاقا من النتائج، إنتاجها هو في الواقع الخام نسبيا...

8 طائرات A100، تم الانتهاء من التدريب في يوم واحد

تربط بنية نموذج LLaVA أداة تشفير مرئية مُدربة مسبقًا (CLIP ViT-L/14) مع نموذج لغة واسع النطاق (Vicuna).

ويرتبط النموذجان بمصفوفة رسم خرائط بسيطة، وهي المسؤولة عن محاذاة أو تحويل السمات البصرية واللغوية بحيث يمكن التلاعب بها في مساحة موحدة.

في مجموعة البيانات التالية للتعليمات متعددة الوسائط، كان أداء LLaVA جيدًا، حيث حصل على درجة 85.1% مقارنة بـ GPT-4. في Science QA، سجلت دقة LLaVA رقمًا قياسيًا جديدًا، حيث وصلت إلى 92.53%.

هذه المرة، أنشأ الباحثون خط أساس أكثر قوة وعملية يعتمد على إطار عمل LLaVA.

عنوان الورقة:

توفر موصلات MLP متعددة الوسائط ودمج البيانات الأكاديمية ذات الصلة بالمهام (مثل VQA) إمكانات فهم أقوى متعددة الوسائط لـ LLaVA.

بالمقارنة مع InstructBLIP أو Qwen-VL، والتي تم تصميمها خصيصًا لإعادة تشكيل العينات المرئية والمدربة على مئات الملايين أو حتى المليارات من البيانات المقترنة بالنص والصور، تستخدم LLaVA أبسط تصميم معماري لـ LMM، والذي يتطلب 600 ألف صورة فقط. طبقة رسم خرائط بسيطة متصلة بالكامل.

يمكن تدريب النموذج النهائي على 8 طائرات A100 في يوم واحد، وقد حقق SOTA في اختبارات قياس الأداء المختلفة.

بالإضافة إلى ذلك، يتضمن Qwen-VL بيانات داخلية أثناء التدريب، لكن LLaVA يحتاج فقط إلى البيانات العامة.

ليس هناك شك في أن هذه العروض الأساسية المحسنة والقابلة للتكرار بسهولة ستوفر مرجعًا قيمًا لمستقبل LMM مفتوح المصدر.

تم تحسين الأداء بشكل كبير، وتم تحديث 11 عنصرًا من عناصر SOTA

باعتباره نموذجًا لضبط التعليمات المرئية مفتوح المصدر، يؤدي LLaVA أداءً جيدًا للغاية في قدرات التفكير المنطقي البصري - في الاختبارات المعيارية المستندة إلى التعليمات المرئية الواقعية التي تتبع المهام، يتفوق LLaVA حتى على أحدث النماذج.

ومع ذلك، لم يكن أداء LLaVA جيدًا في المعايير الأكاديمية التي غالبًا ما تتطلب إجابات قصيرة، مثل الكلمات. والسبب هو أن LLaVA لم يتم تدريبه مسبقًا على البيانات واسعة النطاق.

قياس النموذج

أولاً، قام الباحثون بزيادة دقة الصورة المدخلة حتى يتمكن LLM من "رؤية" تفاصيل الصورة بوضوح، وأضافوا مجموعة بيانات GQA كمصدر إضافي للمعرفة البصرية. علاوة على ذلك، تتم إضافة بيانات ShareGPT أيضًا لتكبير LLM إلى 13B.

تظهر نتائج MM-Vet أن التحسن يكون أكثر أهمية عندما يتم تمديد LLM إلى 13B، مما يوضح أيضًا أن قدرة LLM الأساسية في الحوار البصري مهمة جدًا.

النموذج النهائي بعد كل التحسينات، المعروف باسم LLaVA-1.5، كان أداؤه مثيرًا للإعجاب، متجاوزًا LLaVA الأصلي بفارق كبير.

قياس النتائج للبيانات والنموذج والحل

المقارنة مع SOTA

بعد ذلك، اختبر الباحثون LLaVA-1.5 على مجموعة من معايير VQA الأكاديمية والمعايير المقترحة خصيصًا لـ LMMs التي تتبع التعليمات.

تظهر النتائج أن LLaVA-1.5 لا يستخدم فقط قدرًا أقل من بيانات التدريب المسبق والتعليمات الدقيقة، ولكنه يستفيد أيضًا من أبسط البنية والحوسبة الأكاديمية ومجموعات البيانات العامة لتحقيق أفضل أداء - في 11 من أصل 12 معيارًا تم الحصول عليه من SOTA.

بالإضافة إلى ذلك، وجدت الدراسة أيضًا أن الضبط الدقيق للتعليمات المرئية يلعب دورًا أكثر أهمية من التدريب المسبق في تحسين قدرات LMM.

وهذا أيضًا يجعلنا نعيد التفكير في مزايا أدوات أخذ العينات المرئية وضرورة التدريب المسبق الإضافي واسع النطاق فيما يتعلق بقدرات متابعة التعليمات متعددة الوسائط.

مقارنة مع أساليب SOTA على 12 معيارا

نصائح حول تنسيق الاستجابة

وجد الباحثون أن الأساليب السابقة مثل InstructBLIP لم تكن قادرة على تحقيق التوازن بين الشكل القصير والشكل الطويل من VQA. والسبب الرئيسي هو أن ——

أولاً، كانت المطالبات المتعلقة بتنسيق الاستجابة غامضة.

على سبيل المثال، "Q: {Question} A: {Answer}" لا يشير بوضوح إلى تنسيق الإخراج المثالي. حتى الحوار المرئي الطبيعي قد يتسبب في تجاوز LLM للإجابات ذات التنسيق القصير.

ثانيًا، لم يتم ضبط LLM بشكل دقيق.

على سبيل المثال، يقوم InstructBLIP فقط بضبط الإرشادات الخاصة بـ Qformer. على الرغم من أنه من الممكن استخدام رمز الإخراج المرئي الخاص بـ Qformer للتحكم في طول مخرجات LLM، إلا أن Qformer يتمتع بقدرة محدودة نسبيًا مقارنة بـ LLMs مثل LLaMA، لذلك قد لا يكون قادرًا على القيام بذلك بشكل صحيح.

لحل هذه المشكلة، اقترح الباحثون إضافة تلميح في نهاية سؤال VQA من شأنه أن يوضح تنسيق الإخراج، مما يسمح للنموذج بتوليد إجابات قصيرة. على سبيل المثال: "أجب عن السؤال بكلمة أو عبارة واحدة."

عندما يستخدم LLM هذا التلميح للضبط الدقيق، يكون LLaVA قادرًا على ضبط تنسيق الإخراج بشكل صحيح وفقًا لتعليمات المستخدم ولا يتطلب معالجة إضافية لبيانات VQA باستخدام ChatGPT.

تظهر النتائج أنه بمجرد إضافة VQAv2 في التدريب، تم تحسين أداء LLaVA على MME بشكل ملحوظ (1323.8 مقابل 502.8)، وهو أعلى بـ 111 نقطة من InstructBLIP!

### بيانات المهام الأكاديمية

أضاف الباحثون أيضًا مجموعات بيانات VQA للمهام الأكاديمية لـ VQA وOCR والإدراك على المستوى الإقليمي لتحسين قدرات النموذج من جوانب مختلفة.

قاموا أولاً بتضمين أربع مجموعات بيانات إضافية تستخدمها InstructBLIP: Open Knowledge VQA.

من بينها، يتم تحويل A-OKVQA إلى تنسيق أسئلة متعددة الاختيارات ويستخدم تنسيقًا محددًا للإجابة - قم بالإجابة مباشرة باستخدام الحروف الموجودة في الخيارات المحددة.

باستخدام مجموعة فرعية فقط من مجموعة البيانات المستخدمة بواسطة InstructBLIP، تجاوزت LLaVA InstructBLIP في جميع المهام الثلاث في الجدول 1، مما يوضح أن تصميم LLaVA فعال للغاية.

بالإضافة إلى ذلك، وجد الباحثون أن قدرة النموذج على توطين التفاصيل المرئية الدقيقة يمكن تحسينها عن طريق إضافة مجموعات بيانات VQA على مستوى المنطقة.

تعميم تعليمات تنسيق اللقطة الصفرية

على الرغم من أن LLaVA-1.5 يستخدم فقط تعليمات ذات تنسيق محدود للتدريب، إلا أنه يمكن تعميمها على تعليمات التنسيق الأخرى.

على سبيل المثال، يتطلب VizWiz أن يقوم النموذج بإخراج "غير قابل للإجابة" عندما لا يكون المحتوى المقدم كافيًا للإجابة على السؤال، ويمكن أن توجه مطالبات تنسيق الإجابة الخاصة بـ LLaVA النموذج بشكل فعال للقيام بذلك (الأسئلة غير القابلة للإجابة تمثل 11.1% → 67.8%).

### إمكانية التصوير بعدة لغات

وفي الوقت نفسه، لم يتم ضبط LLaVA-1.5 بشكل دقيق ليناسب التعليمات متعددة اللغات. ومع ذلك، نظرًا لأن ShareGPT يحتوي على كمية كبيرة من البيانات ذات الصلة، فلا يزال بإمكانه تنفيذ أوامر متعددة الوسائط بعدة لغات.

قام الباحثون بتقييم كمي لقدرة النموذج على التعميم على اللغة الصينية على MMBenchCN، حيث تم تحويل أسئلة MMBench إلى اللغة الصينية.

ومن الجدير بالذكر أن LLaVA-1.5 أكثر دقة بنسبة 7.3% من Qwen-VL-Chat (63.6% مقابل 56.7%). من بينها، Qwen قام بضبط التعليمات الصينية متعددة الوسائط، في حين أن LLaVA-1.5 لم يفعل ذلك.

تكاليف الحوسبة

بالنسبة لـ LLaVA-1.5، استخدم الباحثون نفس مجموعة بيانات ما قبل التدريب مثل LCS-558K واحتفظوا تقريبًا بنفس عدد تعليمات الضبط الدقيق لتكرارات التدريب وأحجام الدُفعات مثل LLaVA.

نظرًا لزيادة دقة إدخال الصورة إلى 336 بكسل، فإن وقت تدريب LLaVA-1.5 هو ضعف وقت تدريب LLaVA: 6 ساعات من التدريب المسبق و20 ساعة من الضبط البصري للتعليمات الدقيقة باستخدام 8 A100.

محددات

على الرغم من أن LLaVA-1.5 قد حقق نتائج جيدة جدًا، إلا أنه يجب الاعتراف بأنه لا يزال يعاني من بعض القيود.

أولاً، يستخدم LLaVA تصحيحات صور كاملة، مما قد يؤدي إلى إطالة وقت كل تكرار للتدريب.

ثانيًا، LLaVA-1.5 غير قادر بعد على التعامل مع صور متعددة بسبب عدم وجود مثل هذه التعليمات لمتابعة البيانات ومحدودية طول السياق.

ثالثًا، على الرغم من أن LLaVA-1.5 يمكنه اتباع التعليمات المعقدة بكفاءة، إلا أن قدراته على حل المشكلات ستظل محدودة في بعض المجالات، وهو ما يمكن تحقيقه من خلال تحسين البيانات باستخدام نماذج لغوية أكثر قوة وتعليمات مرئية مستهدفة عالية الجودة.

أخيرًا، LLaVA-1.5 معرض حتماً للهلوسة والمعلومات الخاطئة، وبالتالي يجب استخدامه بحذر في التطبيقات المهمة مثل التطبيقات الطبية.

عن المؤلف

هاوتيان ليو

هاوتيان ليو هو طالب دكتوراه في علوم الكمبيوتر في جامعة ويسكونسن ماديسون تحت إشراف البروفيسور يونج جاي لي. حصل سابقًا على درجة البكالوريوس من جامعة تشجيانغ.

تتركز اهتماماته البحثية في رؤية الكمبيوتر والتعلم الآلي، وخاصة الخوارزميات الفعالة للإدراك البصري والفهم. ركزت الأبحاث الحديثة على بناء نماذج كبيرة قابلة للتخصيص بناءً على النوايا البشرية.

تشونيوان لي

تشونيوان لي هو باحث رئيسي في Microsoft Research Redmond.

حصل سابقًا على درجة الدكتوراه في التعلم الآلي من جامعة ديوك، حيث كان المشرف عليه البروفيسور لورانس كارين. لقد شغل منصب الرئيس الميداني لـ NeurIPS، وICML، وICLR، وEMNLP، وAAAI، بالإضافة إلى كونه محررًا ضيفًا لـ IJCV.

تركز أبحاثه الأخيرة على التدريب المسبق واسع النطاق في رؤية الكمبيوتر ومعالجة اللغة الطبيعية. على سبيل المثال، بناء نماذج متعددة الوسائط واسعة النطاق تتبع نوايا الإنسان، والتدريب المسبق البصري واللغوي، والنماذج التوليدية العميقة واسعة النطاق.

يوينغ لي

يوينج لي هو طالب دكتوراه في علوم الكمبيوتر في جامعة ويسكونسن ماديسون، ويشرف عليه البروفيسور يونج جاي لي. حصل سابقًا على درجة البكالوريوس من جامعة هواتشونغ للعلوم والتكنولوجيا.

تتمثل اهتماماته البحثية في توليد ومعالجة الصور متعددة الوسائط التي يمكن التحكم فيها، وغيرها من المشكلات المتعلقة بالرؤية الإبداعية.

مراجع:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت