MiniGPT-5، الذي يوحد إنشاء الصور والنصوص، موجود هنا: يصبح الرمز المميز Voken، ولا يمكن للنموذج مواصلة الكتابة فحسب، بل يمكنه أيضًا إضافة الصور تلقائيًا.

يبدو أن نموذج GPT-5 الضخم من OpenAI بعيد المنال، لكن بعض الباحثين أخذوا زمام المبادرة في إطلاق النموذج المبتكر عبر الأجيال البصرية واللغوية MiniGPT-5. وهذا له آثار مهمة على توليد صور ذات أوصاف نصية متماسكة.

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

تحقق النماذج الكبيرة قفزة بين اللغة والرؤية، مما يَعِد بفهم وإنشاء محتوى النص والصور بسلاسة. في سلسلة من الدراسات الحديثة، لا يعد تكامل الميزات متعددة الوسائط اتجاهًا متناميًا فحسب، بل أدى بالفعل إلى تطورات رئيسية تتراوح من المحادثات متعددة الوسائط إلى أدوات إنشاء المحتوى. أظهرت النماذج اللغوية الكبيرة قدرات لا مثيل لها في فهم النص وتوليده. ومع ذلك، فإن توليد الصور مع روايات نصية متماسكة في وقت واحد لا يزال مجالًا يحتاج إلى تطوير.

في الآونة الأخيرة، اقترح فريق بحث من جامعة كاليفورنيا، سانتا كروز، MiniGPT-5، وهي تقنية مبتكرة لتوليد اللغة المرئية المتداخلة تعتمد على مفهوم "التصويت التوليدي".

* عنوان الورقة:

  • عنوان المشروع :

من خلال الجمع بين آلية Stable Diffusion وLLM من خلال "تصويت توليدي" رمزي مرئي خاص، يبشر MiniGPT-5 بنموذج جديد للجيل الماهر متعدد الوسائط. وفي الوقت نفسه، تؤكد طريقة التدريب المكونة من مرحلتين المقترحة في هذه المقالة على أهمية المرحلة الأساسية الخالية من الوصف، مما يسمح للنموذج "بالازدهار" حتى عندما تكون البيانات نادرة. لا تتطلب المرحلة العامة من الطريقة تعليقات توضيحية خاصة بالمجال، مما يجعل الحل الذي نقدمه متميزًا عن الطرق الحالية. من أجل ضمان تناغم النصوص والصور التي تم إنشاؤها، يتم تفعيل إستراتيجية الخسارة المزدوجة لهذه الورقة، كما تعمل طريقة التصويت التوليدي وطريقة التصنيف على تعزيز هذا التأثير.

وبالبناء على هذه التقنيات، يمثل هذا العمل نهجًا تحويليًا. باستخدام ViT (Vision Transformer) وQformer بالإضافة إلى نماذج اللغات الكبيرة، يقوم فريق البحث بتحويل المدخلات متعددة الوسائط إلى أصوات مولدة وربطها بسلاسة مع Stable Diffusion2.1 عالي الدقة لتحقيق توليد صور تراعي السياق. تجمع هذه الورقة بين الصور كمدخل مساعد مع طرق تعديل التعليمات، كما أنها رائدة في استخدام ضياعات توليد النص والصور، وبالتالي توسيع التآزر بين النص والرؤية.

يتطابق MiniGPT-5 مع نماذج مثل قيود CLIP ويدمج نموذج الانتشار بذكاء مع MiniGPT-4 لتحقيق نتائج أفضل متعددة الوسائط دون الاعتماد على التعليقات التوضيحية الخاصة بالمجال. والأهم من ذلك، أن استراتيجيتنا يمكن أن تستفيد من التقدم في النماذج الأساسية للغة المرئية متعددة الوسائط وتوفر مخططًا جديدًا لتعزيز القدرات التوليدية متعددة الوسائط.

كما هو موضح في الشكل أدناه، بالإضافة إلى فهمه الأصلي متعدد الوسائط وإمكانيات إنشاء النص، يمكن لـ MiniGPT5 أيضًا توفير مخرجات متعددة الوسائط معقولة ومتماسكة:

وتتجلى مساهمة هذه المقالة في ثلاثة جوانب:

  • يوصى باستخدام برنامج تشفير متعدد الوسائط، والذي يمثل تقنية جديدة للأغراض العامة وقد ثبت أنه أكثر فعالية من LLM و Vokens التوليدية المقلوبة، ودمجه مع Stable Diffusion لإنشاء مخرجات بصرية ولغوية مشذرة (متعددة الوسائط). نموذج لغة قادر على توليد الوسائط المتعددة).
  • يسلط الضوء على استراتيجية تدريب جديدة مكونة من مرحلتين لتوليد الوسائط المتعددة بدون وصف. تحصل مرحلة المحاذاة أحادية الوسائط على ميزات مرئية عالية الجودة لمحاذاة النص من عدد كبير من أزواج الصور النصية. تتضمن مرحلة التعلم متعدد الوسائط مهمة تدريبية جديدة، وتوليد السياق، مما يضمن إمكانية تنسيق الرؤية والنص بشكل جيد وتوليدهما. تؤدي إضافة إرشادات خالية من المصنفات أثناء مرحلة التدريب إلى تحسين جودة التوليد.
  • بالمقارنة مع النماذج التوليدية متعددة الوسائط الأخرى، يحقق MiniGPT-5 أداءً متطورًا في مجموعة بيانات CC3M. كما أنشأ MiniGPT-5 معايير جديدة لمجموعات البيانات الشهيرة مثل VIST وMMDialog.

وبعد ذلك، دعونا نلقي نظرة على تفاصيل الدراسة.

نظرة عامة على الطريقة

من أجل تمكين نماذج اللغة واسعة النطاق من الحصول على قدرات توليد متعددة الوسائط، قدم الباحثون إطارًا منظمًا يدمج نماذج اللغة واسعة النطاق متعددة الوسائط المدربة مسبقًا ونماذج إنشاء النص إلى صورة. ومن أجل حل الاختلافات بين مجالات النماذج المختلفة، قاموا بإدخال رموز مرئية خاصة "الأصوات التوليدية" (الأصوات التوليدية)، والتي يمكن تدريبها مباشرة على الصور الأصلية. بالإضافة إلى ذلك، تم تطوير طريقة تدريب مكونة من مرحلتين، بالإضافة إلى إستراتيجية تمهيد خالية من المصنفات، لزيادة تحسين جودة التوليد.

** مرحلة الإدخال المتعدد الوسائط **

تركز التطورات الحديثة في النماذج الكبيرة متعددة الوسائط (مثل MiniGPT-4) بشكل أساسي على فهم الوسائط المتعددة، القادرة على معالجة الصور كمدخلات مستمرة. من أجل توسيع وظائفه لتشمل الجيل متعدد الوسائط، قدم الباحثون Vokens التوليدية المصممة خصيصًا لإخراج الميزات المرئية. بالإضافة إلى ذلك، اعتمدوا أيضًا تقنيات الضبط الدقيق ذات الكفاءة في المعلمات ضمن إطار نموذج اللغة الكبير (LLM) لتعلم المخرجات متعدد الوسائط.

** توليد مخرجات متعددة الوسائط **

لمواءمة الرموز التوليدية بدقة مع النماذج التوليدية، نقوم بصياغة وحدة رسم خرائط مدمجة لمطابقة الأبعاد ودمج العديد من الخسائر الخاضعة للإشراف، بما في ذلك فقدان مساحة النص وفقدان نموذج الانتشار الكامن. يساعد فقدان مساحة النص النموذج على معرفة التوطين الصحيح للرموز المميزة، بينما يؤدي فقدان الانتشار الكامن إلى محاذاة الرموز المميزة مباشرةً مع الميزات المرئية المناسبة. نظرًا لأن ميزات الرموز التوليدية يتم توجيهها مباشرةً بواسطة الصور، فإن هذه الطريقة لا تتطلب أوصافًا شاملة للصور، مما يتيح التعلم الخالي من الوصف.

استراتيجية التدريب

نظرًا لوجود تحول غير مهم في المجال بين مجال النص ومجال الصورة، وجد الباحثون أن التدريب المباشر على مجموعة بيانات محدودة من النص والصورة قد يؤدي إلى اختلال المحاذاة وتدهور جودة الصورة.

ولذلك، استخدموا استراتيجيتين تدريبيتين مختلفتين للتخفيف من هذه المشكلة. تتضمن الإستراتيجية الأولى استخدام تقنيات التمهيد الخالية من المصنفات لتحسين فعالية الرموز المميزة التي تم إنشاؤها طوال عملية النشر؛ تتكشف الإستراتيجية الثانية على مرحلتين: مرحلة ما قبل التدريب الأولية التي تركز على محاذاة الميزات التقريبية، تليها مرحلة الضبط الدقيق للعمل على ميزة التعلم المعقدة.

التجربة والنتائج

ولتقييم فعالية النموذج، أجرى الباحثون سلسلة من التقييمات على معايير متعددة. تهدف التجربة إلى الإجابة على عدة أسئلة رئيسية:

  • هل يستطيع MiniGPT-5 إنشاء صور قابلة للتصديق ونصوص معقولة؟
  • كيف يتم أداء MiniGPT-5 مقارنة بنماذج SOTA الأخرى في مهام إنشاء اللغة المرئية المتداخلة أحادية الجولة ومتعددة الجولات؟
  • ما هو تأثير تصميم كل وحدة على الأداء العام؟

من أجل تقييم أداء النموذج على معايير مختلفة في مراحل التدريب المختلفة، تظهر عينات التحليل الكمي لـ MiniGPT-5 في الشكل 3 أدناه:

يشمل التقييم هنا كلا من المجالات المرئية (المقاييس المتعلقة بالصورة) واللغوية (مقاييس النص) لإثبات عمومية النموذج المقترح وقوته.

تقييم الخطوة النهائية عبر VIST

تتضمن المجموعة الأولى من التجارب تقييمًا من خطوة واحدة، أي إنشاء صور مقابلة استنادًا إلى النموذج الموجود في الخطوة الأخيرة، وتظهر النتائج في الجدول 1.

يتفوق MiniGPT-5 على SD 2 المضبوط بدقة في جميع الإعدادات الثلاثة. ومن الجدير بالذكر أن نتيجة CLIP لنموذج MiniGPT-5 (LoRA) تتفوق باستمرار على المتغيرات الأخرى عبر أنواع متعددة، خاصة عند الجمع بين الصور والنصوص. من ناحية أخرى، تسلط درجة FID الضوء على القدرة التنافسية لنموذج MiniGPT-5 (Prefix)، مما يشير إلى أنه قد يكون هناك مفاضلة بين جودة تضمين الصورة (التي تعكسها درجة CLIP) وتنوع الصورة وأصالتها (التي تعكسها درجة CLIP). درجة FID). بالمقارنة مع النموذج الذي تم تدريبه مباشرة على VIST دون تضمين مرحلة تسجيل أحادية الطريقة (MiniGPT-5 w/o UAS)، على الرغم من احتفاظ النموذج بالقدرة على إنشاء صور ذات معنى، إلا أن جودة الصورة واتساقها تقل بشكل كبير. تسلط هذه الملاحظة الضوء على أهمية استراتيجية التدريب على مرحلتين.

تقييم VIST متعدد الخطوات

وفي تقييم أكثر تفصيلاً وشمولاً، قام الباحثون بشكل منهجي بتزويد النموذج بسياق تاريخي سابق ثم قاموا بعد ذلك بتقييم الصور والسرد الناتج في كل خطوة.

يلخص الجدولان 2 و3 نتائج هذه التجارب، ويلخصان أداء مقاييس الصورة واللغة على التوالي. تظهر النتائج التجريبية أن MiniGPT-5 قادر على إنشاء صور متماسكة وعالية الجودة باستخدام مدخلات متعددة الوسائط طويلة أفقية في جميع البيانات دون التأثير على قدرات الفهم متعدد الوسائط للنموذج الأصلي. وهذا يسلط الضوء على فعالية MiniGPT-5 في بيئات مختلفة.

VIST للتقييم البشري

كما هو موضح في الجدول 4، أنتج MiniGPT-5 روايات نصية أكثر ملاءمة في 57.18% من الحالات، وقدم جودة صورة أفضل في 52.06% من الحالات، وأنتج أوضاعًا متعددة أكثر تماسكًا في 57.62% من مخرجات حالة المشاهد. بالمقارنة مع خط الأساس المكون من مرحلتين والذي يعتمد السرد من النص إلى الصورة دون مزاج شرطي، تظهر هذه البيانات بوضوح قدراتها الأقوى في مجال الإنشاء متعدد الوسائط.

MMDialog جولات متعددة من التقييم

تظهر النتائج في الجدول 5. يتفوق MiniGPT-5 على نموذج Divter الأساسي في إنشاء استجابات نصية أكثر دقة. في حين أن الصور التي تم إنشاؤها ذات جودة مماثلة، فإن MiniGPT-5 يتفوق على النموذج الأساسي في ارتباط MM، مما يشير إلى أنه يمكن أن يتعلم بشكل أفضل كيفية وضع توليد الصور بشكل مناسب وإنشاء استجابات متعددة الوسائط متسقة للغاية.

ما هو التأثير؟ دعونا نلقي نظرة على مخرجات MiniGPT-5. يوضح الشكل 7 أدناه مقارنة النماذج الأساسية في مجموعات التحقق من صحة MiniGPT-5 وCC3M.

يوضح الشكل 8 أدناه المقارنة بين MiniGPT-5 والنموذج الأساسي في مجموعة التحقق من صحة VIST.

يوضح الشكل 9 أدناه المقارنة بين MiniGPT-5 والنموذج الأساسي في مجموعة اختبار MMDialog.

لمزيد من تفاصيل البحث، يرجى الرجوع إلى الورقة الأصلية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت