يعمل خريجو جامعة بكين معًا ، وتصدر Meta أول نموذج فردي متعدد الوسائط في التاريخ! هزم نموذج 7B Diffusion ، وتم حل مشكلة الرسم اليدوي بشكل مثالي.
ميتا هنا مرة أخرى!
الآن ، أطلقت Meta نموذجًا متعدد الوسائط قائمًا على المحولات - CM3leon ، والذي حقق اختراقات مطلقة في مجالات الرسوم البيانية لفنسنت وفهم الصور ، ويمكن وصفه بأنه الأفضل من نوعه.
علاوة على ذلك ، فإن هذا المزيج من الأساليب المتعددة في نموذج واحد غير مسبوق في أنظمة الذكاء الاصطناعي التي تم الكشف عنها سابقًا.
من الواضح أن هذا البحث الذي أجرته Meta يحدد معيارًا جديدًا للذكاء الاصطناعي متعدد الوسائط ، مما يشير إلى أن نظام الذكاء الاصطناعي يمكنه التبديل تمامًا بين المهام مثل الفهم والتحرير وإنشاء الصور ومقاطع الفيديو والنصوص.
وفي الوقت نفسه ، يمثل إطلاق CM3leon رسميًا المرة الأولى التي يطابق فيها نموذج الانحدار التلقائي أداء نماذج الانتشار التوليدي الرائدة في المعايير الرئيسية.
عنوان الورق:
في السابق ، كانت النماذج الثلاث نجوم التي حظيت بأكبر قدر من الاهتمام في مجال الرسم البياني في فينسنت هي Stable Diffusion و DALL-E و Midjourney. تعتمد تقنية مخطط Vinsen بشكل أساسي على نموذج الانتشار.
لكن الأهمية الثورية لـ CM3leon هي أنها تستخدم تقنية مختلفة تمامًا - نموذج الانحدار التلقائي القائم على الرمز المميز.
أظهرت النتائج أن نموذج الانحدار الذاتي المعتمد على الرمز المميز ليس فقط أكثر فاعلية من الطريقة المعتمدة على نموذج الانتشار ، ويحقق SOTA في مجال الرسوم البيانية فينسنتيان ، ولكنه يتطلب أيضًا حساب تدريب أقل بخمس مرات من الطريقة السابقة القائمة على المحولات !
استعد ، موجة من التأثيرات الرائعة قادمة
مجرد النظر إلى مؤشرات الأداء الأولية لا يمكن أن يفسر أي شيء.
حيث يتألق CM3leon حقًا في التعامل مع مهام المطالبة وتحرير الصور الأكثر تعقيدًا.
** عرض الصور بدقة بنتائج مذهلة **
على سبيل المثال ، يمكنه عرض الصور بدقة من إشارات مثل "صبار صغير في الصحراء يرتدي قبعة من القش ونظارات شمسية نيون".
** تعسفي ، قم بتحرير الصور كما تريد **
يتمتع CM3leon أيضًا بقدرة فريدة على تحرير الصور الموجودة بناءً على تعليمات النص الحر ، مثل تغيير لون السماء ، أو إضافة كائنات في مواقع محددة.
تتجاوز الوظائف المذكورة أعلاه بكثير التأثيرات التي يمكن أن تحققها طرز مثل DALL-E 2.
** نموذج فردي متعدد الوسائط غير مسبوق **
تسمح بنية CM3leon متعددة الاستخدامات بالانتقال بحرية وسلاسة بين مهام النص والصورة والتكوين.
بالإضافة إلى إمكانيات مخططات فنسنت ، يمكن لـ CM3leon إنشاء تعليقات توضيحية للصور ، والإجابة على أسئلة حول محتوى الصورة ، وحتى إنشاء صور من الأوصاف النصية للمربعات المحيطة وخرائط التجزئة.
هذا المزيج من الأساليب في نموذج واحد غير مسبوق في أنظمة الذكاء الاصطناعي التي تم الكشف عنها مسبقًا.
: ما هو الكلب الذي يحمله؟ أجاب النموذج: عصا.
: يصف الصورة المقدمة بالتفصيل. يجيب النموذج: في هذه الصورة ، يحمل الكلب عصا في فمه. هناك عشب على الأرض. الصورة بها أشجار في الخلفية.
بالنظر إلى الوصف النصي لتجزئة الصندوق المحيط بالصورة ، مما يشير إلى المكان الذي تحتاج فيه الصورة إلى تجمع ومرآة ، يمكن لـ CM3leon إنشاء الصورة المقابلة تمامًا.
** دقة فائقة **
يمكن دمج منصة منفصلة فائقة الدقة مع إخراج CM3leon ، مما يؤدي إلى زيادة كبيرة في الدقة والتفاصيل.
أدخل "جزيرة دائرية صغيرة في وسط البحيرة ، بها غابات حول البحيرة ، ذات تباين عالٍ" ——
** حل مشكلة الرسام بالذكاء الاصطناعي **
حتى المشكلة الطويلة الأمد المتمثلة في عدم قدرة الذكاء الاصطناعي على رسم الأيدي تم حلها بسهولة بواسطة CM3leon.
نموذج الانحدار التلقائي يتفوق على Diffusion للمرة الأولى؟
في مجال مخططات فنسنت التي أصبحت شائعة في السنوات الأخيرة ، تستخدم كل من Midjourney و DALL-E 2 و Stable Diffusion تقنية الانتشار. بينما ينتج عن تقنية Diffusion نتائج مذهلة ، فهي عملية حسابية مكثفة ، مما يجعلها عملية حسابية مكثفة ومكلفة ، وغالبًا ما تفتقر إلى السرعة المطلوبة للتطبيقات في الوقت الفعلي.
ومن المثير للاهتمام ، أن OpenAI أرادت استكشاف إمكانية Transformer كإنشاء صورة من خلال نموذج يسمى Image GPT قبل بضع سنوات. لكنها في النهاية أسقطت الفكرة لصالح الانتشار.
يتخذ CM3leon نهجًا مختلفًا تمامًا. كنموذج قائم على المحولات ، فإنه يستفيد من آلية الانتباه لتقييم أهمية بيانات الإدخال (سواء كانت نصية أو صورًا).
يمكّن هذا الاختلاف المعماري CM3leon من تحقيق سرعة تدريب أسرع وموازاة أفضل ، وبالتالي يكون أكثر كفاءة من الأساليب التقليدية القائمة على الانتشار.
باستخدام TPU واحد فقط ، يتم تدريب CM3leon بكفاءة على مجموعة بيانات الصورة ويحقق درجة FID تبلغ 4.88 على مجموعة بيانات MS-COCO ، متجاوزًا نموذج Google للنص إلى الصورة Parti.
في الوقت نفسه ، تزيد كفاءة CM3leon عن 5 أضعاف كفاءة بنية المحولات المماثلة.
يمكن أن يُعزى السبب وراء نجاح CM3leon إلى بنيته الفريدة وطريقة التدريب.
مفتاح الأداء القوي هو تقنية الضبط الدقيق (SFT).
تم استخدام SFT سابقًا لتدريب نماذج إنشاء النصوص مثل ChatGPT على تأثير جيد ، لكن Meta تقول إنه يمكن أن يكون مفيدًا أيضًا عند تطبيقه على الصور.
في الواقع ، أدى الضبط الدقيق للإرشادات إلى تحسين أداء CM3Leon ليس فقط في إنشاء الصور ، ولكن أيضًا في كتابة التعليقات التوضيحية للصور ، مما يمكّنه من الإجابة عن الأسئلة المتعلقة بالصور وتحسين أداء الصور باتباع الإرشادات النصية مثل "تغيير لون السماء إلى أزرق فاتح. "") لتعديل الصورة.
يستخدم CM3leon فقط بنية محول فك التشفير ، على غرار النماذج القائمة على النص ، ولكنه يضيف القدرة على معالجة النصوص والصور.
تتضمن عملية التدريب زيادة الاسترجاع ، بالإضافة إلى الضبط الدقيق للتعليمات عبر مختلف مهام إنشاء الصور والنصوص.
من خلال تطبيق تقنيات الضبط الدقيق عبر الوسائط الخاضعة للإشراف ، تعمل Meta على تحسين أداء CM3leon بشكل كبير في شرح الصورة ، وضمان الجودة المرئي وتحرير النص.
على الرغم من أن CM3leon يتم تدريبه على 3 مليارات رمز نصي فقط ، إلا أنه يطابق أو حتى يتجاوز نتائج النماذج الأخرى المدربة على ما يصل إلى 100 مليار رمز مميز.
نظرًا لأن النموذج الأول متعدد الوسائط تم ضبطه بطريقة مشابهة لنماذج لغة النص ، يشتمل Meta على مرحلة ما قبل التدريب على نطاق واسع معزز بالاسترداد ومرحلة الضبط الدقيق الثانية متعددة المهام (SFT) في CM3leon.
كيف تتصرف CM3leon
باستخدام إمكانيات CM3leon ، يمكن لأدوات إنشاء الصور إنتاج صور أكثر تناسقًا تتبع إشارات الإدخال بشكل أفضل.
فيما يلي عرض لإمكانيات CM3leon في مهام مختلفة ، تم إكمالها جميعًا بواسطة نموذج واحد:
** إنشاء نص إلى صورة **
يعد تحرير الصور المستند إلى النص (على سبيل المثال ، "تغيير لون السماء إلى اللون الأزرق الساطع") أمرًا صعبًا لأنه يتطلب من النموذج فهم كل من التعليمات النصية والمحتوى المرئي.
خاصة عندما يتم تضمين كائنات معقدة أو عندما يحتوي التلميح على قيود متعددة يجب أن تكون موجودة في الإخراج.
من النص الفوري ذو البنية التركيبية العالية ، يمكن لـ CM3leon إنشاء صورة لمتابعة.
(1) صبار صغير يرتدي قبعة من القش ونظارات شمسية نيون في الصحراء الكبرى (2) لقطة مقرّبة ليد بشرية (3) شخصية الراكون الرئيسية في الرسوم المتحركة تستعد لمعركة ملحمية مع سيف كاتانا (4) تم تقديمها بأسلوب خيالي بعلامة توقف مع "1991" مكتوب عليها
** تحرير الصور على أساس النص **
بالنظر إلى صورة وموجه نصي ، يمكن لـ CM3leon تحرير الصورة وفقًا للإرشادات الواردة في النص.
نظرًا لعمومية نموذج CM3leon ، يتم تحقيق ذلك باستخدام نفس النموذج مثل المهام الأخرى ، على عكس النماذج السابقة (مثل InstructPix2Pix) التي تم ضبطها فقط لتحرير الصور المستند إلى النص.
في الوقت نفسه ، يمكن لنموذج CM3leon أيضًا إنشاء أوصاف قصيرة أو طويلة والإجابة على أسئلة حول الصور بناءً على سلسلة من المطالبات المختلفة.
خذ الكستناء.
تَلمِيح:
سؤال: ما هو القاسم المشترك بين هذين الشيئين؟
السياق: اختر أفضل إجابة.
الخيارات: (أ) لامع (ب) مالح
الجواب: لنفكر خطوة بخطوة:
خرج CM3Leon:
فكر في كل شيء. الرقائق مالحة. المعجنات المالحة. إذن الجواب (ب).
- تَلمِيح:
وصف بالتفصيل جميع الكائنات في صورة معينة.
إخراج CM3Leon:
لافتة شارع موضوعة على عمود معدني. الشعار أزرق عليه نص أبيض. هناك ضوء أحمر على القطب. السماء زرقاء لامعة. هناك سيارات متوقفة في الشارع. توجد أشجار على جانبي الشارع. توجد مباني على جانبي الشارع.
وبالمثل ، يمكن لـ CM3leon بسهولة التعامل مع "الأسئلة والأجوبة المصورة" التالية.
لمعرفة المزيد حول CM3leon ، تقوم Meta بتقييم نماذج التعليمات الدقيقة بشكل تجريبي حول إنشاء تعليقات الصور ومهام الإجابة على الأسئلة المرئية ، وتقارنها بمعايير SOTA السابقة.
بالمقارنة مع Flamingo (100B) و OpenFlamingo (40B) ، فإن البيانات النصية لنموذج CM3leon أقل بكثير (حوالي 3B توكنات).
ولكن فيما يتعلق بوصف صورة MS-COCO والإجابة على أسئلة VQA2 ، حقق CM3leon نفس أداء OpenFlamingo ذي العينة الصفرية ، بل إنه تغلب على Flamingo بما يقرب من 10 نقاط مئوية في مهمة VizWiz.
** تحرير الصور الموجه بالبنية **
يهدف تحرير الصور الموجه بالهيكل إلى فهم وتفسير التعليمات النصية المقدمة جنبًا إلى جنب مع المعلومات الهيكلية أو التخطيطية.
يتيح ذلك لنماذج CM3leon إنشاء مجموعات صور متسقة بصريًا ومناسبة للسياق مع الالتزام بتعليمات هيكلية أو تخطيطية معينة.
في صورة تحتوي على تقسيمات فقط (بدون فئات نصية) ، قم بإنشاء صورة. يمثل الإدخال هنا الصورة التي تم استخراج التجزئة منها.
** دقة فائقة **
بالإضافة إلى ذلك ، هناك خدعة شائعة في مجال إنشاء الصور - استخدام مرحلة فائقة الدقة مدربة بشكل منفصل لإنشاء صور عالية الدقة من إخراج النموذج الأصلي.
بالنسبة لهذا النوع من مهام إنشاء نص إلى صورة ، يعمل CM3leon أيضًا بشكل جيد جدًا.
(1) فنجان من القهوة البخارية مع وجود الجبال في الخلفية ، وتستريح على الطريق
(2) عند غروب الشمس الطريق السريع الجميل المهيب
(3) جزيرة دائرية في وسط البحيرة محاطة بالغابات
وبعض جيل الأسلوب "الخيالي".
(1) سلحفاة تسبح تحت الماء (2) فيل يسبح تحت الماء (2) قطيع من الأغنام
كيفية بناء CM3Leon
بناء
فيما يتعلق بالهندسة المعمارية ، يستخدم CM3Leon محولًا خاصًا بوحدة فك التشفير فقط مشابهًا لنموذج النص الناضج.
لكن الاختلاف هو أن CM3Leon قادر على إدخال وإنشاء النصوص والصور.
يدرب
من خلال اعتماد تقنية تحسين استرجاع التدريب المقترحة في الورقة البحثية "نمذجة اللغة متعددة الوسائط المعززة المستردة" ، تعمل Meta على تحسين كفاءة وإمكانية التحكم في نموذج CM3Leon بشكل كبير.
في الوقت نفسه ، قامت Meta أيضًا بضبط نموذج CM3Leon على العديد من مهام إنشاء الصور والنصوص.
على اليسار: مدخلات مشتركة لمختلف المهام ؛ يمينًا: مخرجات النموذج المطابق. أثناء التدريب ، تسلسل Meta المدخلات والمخرجات النموذجية والقطارات مع نفس الهدف كما في مرحلة ما قبل التدريب.
مع استمرار نمو صناعة الذكاء الاصطناعي ، أصبحت النماذج التوليدية مثل CM3Leon أكثر تعقيدًا.
تتعلم هذه النماذج العلاقة بين الرؤية والنص من خلال التدريب على ملايين من الصور النموذجية ، ولكنها يمكن أن تعكس أيضًا التحيزات الموجودة في بيانات التدريب.
لذلك ، تتبنى Meta مجموعة البيانات المرخصة لتدريب CM3Leon.
توضح النتائج أيضًا أن CM3Leon لا يزال يحقق أداءً قويًا على الرغم من اختلاف توزيع البيانات تمامًا عن النماذج السابقة.
في هذا الصدد ، تأمل Meta أنه من خلال الجهود المشتركة للجميع ، يمكن إنشاء نموذج أكثر دقة وإنصافًا وإنصافًا.
تمهيد الطريق لنماذج اللغات متعددة الوسائط
بشكل عام ، تعتقد Meta أن الأداء الممتاز لـ CM3Leon في المهام المختلفة يعد خطوة مهمة نحو إنشاء صورة وفهم أكثر واقعية.
ومثل هذا النموذج يمكن أن يساعد في النهاية على تعزيز الإبداع وتحقيق تطبيقات أفضل في metaverse.
عن المؤلف
ليلي يو وبوين شي وراماكانث باسونورو هم مؤلفو الورقة البحثية.
ومن بين هؤلاء ، حصلت ليلي يو على درجة البكالوريوس من قسم الفيزياء بجامعة بكين ، ودرجة الدكتوراه في الهندسة الكهربائية وعلوم الكمبيوتر من معهد ماساتشوستس للتكنولوجيا.
مراجع:
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تعيد Meta تعريف الوسائط المتعددة! يعمل خريجو جامعة بكين معًا ، ويتفوق نموذج الرسم البياني فينسنت الذي تبلغ قيمته 7 مليارات متغير على Diffusion
المصدر: Xinzhiyuan
ميتا هنا مرة أخرى!
الآن ، أطلقت Meta نموذجًا متعدد الوسائط قائمًا على المحولات - CM3leon ، والذي حقق اختراقات مطلقة في مجالات الرسوم البيانية لفنسنت وفهم الصور ، ويمكن وصفه بأنه الأفضل من نوعه.
علاوة على ذلك ، فإن هذا المزيج من الأساليب المتعددة في نموذج واحد غير مسبوق في أنظمة الذكاء الاصطناعي التي تم الكشف عنها سابقًا.
وفي الوقت نفسه ، يمثل إطلاق CM3leon رسميًا المرة الأولى التي يطابق فيها نموذج الانحدار التلقائي أداء نماذج الانتشار التوليدي الرائدة في المعايير الرئيسية.
في السابق ، كانت النماذج الثلاث نجوم التي حظيت بأكبر قدر من الاهتمام في مجال الرسم البياني في فينسنت هي Stable Diffusion و DALL-E و Midjourney. تعتمد تقنية مخطط Vinsen بشكل أساسي على نموذج الانتشار.
لكن الأهمية الثورية لـ CM3leon هي أنها تستخدم تقنية مختلفة تمامًا - نموذج الانحدار التلقائي القائم على الرمز المميز.
أظهرت النتائج أن نموذج الانحدار الذاتي المعتمد على الرمز المميز ليس فقط أكثر فاعلية من الطريقة المعتمدة على نموذج الانتشار ، ويحقق SOTA في مجال الرسوم البيانية فينسنتيان ، ولكنه يتطلب أيضًا حساب تدريب أقل بخمس مرات من الطريقة السابقة القائمة على المحولات !
استعد ، موجة من التأثيرات الرائعة قادمة
مجرد النظر إلى مؤشرات الأداء الأولية لا يمكن أن يفسر أي شيء.
حيث يتألق CM3leon حقًا في التعامل مع مهام المطالبة وتحرير الصور الأكثر تعقيدًا.
** عرض الصور بدقة بنتائج مذهلة **
على سبيل المثال ، يمكنه عرض الصور بدقة من إشارات مثل "صبار صغير في الصحراء يرتدي قبعة من القش ونظارات شمسية نيون".
يتمتع CM3leon أيضًا بقدرة فريدة على تحرير الصور الموجودة بناءً على تعليمات النص الحر ، مثل تغيير لون السماء ، أو إضافة كائنات في مواقع محددة.
تتجاوز الوظائف المذكورة أعلاه بكثير التأثيرات التي يمكن أن تحققها طرز مثل DALL-E 2.
تسمح بنية CM3leon متعددة الاستخدامات بالانتقال بحرية وسلاسة بين مهام النص والصورة والتكوين.
بالإضافة إلى إمكانيات مخططات فنسنت ، يمكن لـ CM3leon إنشاء تعليقات توضيحية للصور ، والإجابة على أسئلة حول محتوى الصورة ، وحتى إنشاء صور من الأوصاف النصية للمربعات المحيطة وخرائط التجزئة.
هذا المزيج من الأساليب في نموذج واحد غير مسبوق في أنظمة الذكاء الاصطناعي التي تم الكشف عنها مسبقًا.
: ما هو الكلب الذي يحمله؟ أجاب النموذج: عصا.
: يصف الصورة المقدمة بالتفصيل. يجيب النموذج: في هذه الصورة ، يحمل الكلب عصا في فمه. هناك عشب على الأرض. الصورة بها أشجار في الخلفية.
يمكن دمج منصة منفصلة فائقة الدقة مع إخراج CM3leon ، مما يؤدي إلى زيادة كبيرة في الدقة والتفاصيل.
أدخل "جزيرة دائرية صغيرة في وسط البحيرة ، بها غابات حول البحيرة ، ذات تباين عالٍ" ——
حتى المشكلة الطويلة الأمد المتمثلة في عدم قدرة الذكاء الاصطناعي على رسم الأيدي تم حلها بسهولة بواسطة CM3leon.
نموذج الانحدار التلقائي يتفوق على Diffusion للمرة الأولى؟
في مجال مخططات فنسنت التي أصبحت شائعة في السنوات الأخيرة ، تستخدم كل من Midjourney و DALL-E 2 و Stable Diffusion تقنية الانتشار. بينما ينتج عن تقنية Diffusion نتائج مذهلة ، فهي عملية حسابية مكثفة ، مما يجعلها عملية حسابية مكثفة ومكلفة ، وغالبًا ما تفتقر إلى السرعة المطلوبة للتطبيقات في الوقت الفعلي.
ومن المثير للاهتمام ، أن OpenAI أرادت استكشاف إمكانية Transformer كإنشاء صورة من خلال نموذج يسمى Image GPT قبل بضع سنوات. لكنها في النهاية أسقطت الفكرة لصالح الانتشار.
يتخذ CM3leon نهجًا مختلفًا تمامًا. كنموذج قائم على المحولات ، فإنه يستفيد من آلية الانتباه لتقييم أهمية بيانات الإدخال (سواء كانت نصية أو صورًا).
يمكّن هذا الاختلاف المعماري CM3leon من تحقيق سرعة تدريب أسرع وموازاة أفضل ، وبالتالي يكون أكثر كفاءة من الأساليب التقليدية القائمة على الانتشار.
باستخدام TPU واحد فقط ، يتم تدريب CM3leon بكفاءة على مجموعة بيانات الصورة ويحقق درجة FID تبلغ 4.88 على مجموعة بيانات MS-COCO ، متجاوزًا نموذج Google للنص إلى الصورة Parti.
في الوقت نفسه ، تزيد كفاءة CM3leon عن 5 أضعاف كفاءة بنية المحولات المماثلة.
مفتاح الأداء القوي هو تقنية الضبط الدقيق (SFT).
تم استخدام SFT سابقًا لتدريب نماذج إنشاء النصوص مثل ChatGPT على تأثير جيد ، لكن Meta تقول إنه يمكن أن يكون مفيدًا أيضًا عند تطبيقه على الصور.
في الواقع ، أدى الضبط الدقيق للإرشادات إلى تحسين أداء CM3Leon ليس فقط في إنشاء الصور ، ولكن أيضًا في كتابة التعليقات التوضيحية للصور ، مما يمكّنه من الإجابة عن الأسئلة المتعلقة بالصور وتحسين أداء الصور باتباع الإرشادات النصية مثل "تغيير لون السماء إلى أزرق فاتح. "") لتعديل الصورة.
يستخدم CM3leon فقط بنية محول فك التشفير ، على غرار النماذج القائمة على النص ، ولكنه يضيف القدرة على معالجة النصوص والصور.
تتضمن عملية التدريب زيادة الاسترجاع ، بالإضافة إلى الضبط الدقيق للتعليمات عبر مختلف مهام إنشاء الصور والنصوص.
من خلال تطبيق تقنيات الضبط الدقيق عبر الوسائط الخاضعة للإشراف ، تعمل Meta على تحسين أداء CM3leon بشكل كبير في شرح الصورة ، وضمان الجودة المرئي وتحرير النص.
على الرغم من أن CM3leon يتم تدريبه على 3 مليارات رمز نصي فقط ، إلا أنه يطابق أو حتى يتجاوز نتائج النماذج الأخرى المدربة على ما يصل إلى 100 مليار رمز مميز.
نظرًا لأن النموذج الأول متعدد الوسائط تم ضبطه بطريقة مشابهة لنماذج لغة النص ، يشتمل Meta على مرحلة ما قبل التدريب على نطاق واسع معزز بالاسترداد ومرحلة الضبط الدقيق الثانية متعددة المهام (SFT) في CM3leon.
كيف تتصرف CM3leon
باستخدام إمكانيات CM3leon ، يمكن لأدوات إنشاء الصور إنتاج صور أكثر تناسقًا تتبع إشارات الإدخال بشكل أفضل.
فيما يلي عرض لإمكانيات CM3leon في مهام مختلفة ، تم إكمالها جميعًا بواسطة نموذج واحد:
** إنشاء نص إلى صورة **
يعد تحرير الصور المستند إلى النص (على سبيل المثال ، "تغيير لون السماء إلى اللون الأزرق الساطع") أمرًا صعبًا لأنه يتطلب من النموذج فهم كل من التعليمات النصية والمحتوى المرئي.
خاصة عندما يتم تضمين كائنات معقدة أو عندما يحتوي التلميح على قيود متعددة يجب أن تكون موجودة في الإخراج.
من النص الفوري ذو البنية التركيبية العالية ، يمكن لـ CM3leon إنشاء صورة لمتابعة.
** تحرير الصور على أساس النص **
بالنظر إلى صورة وموجه نصي ، يمكن لـ CM3leon تحرير الصورة وفقًا للإرشادات الواردة في النص.
نظرًا لعمومية نموذج CM3leon ، يتم تحقيق ذلك باستخدام نفس النموذج مثل المهام الأخرى ، على عكس النماذج السابقة (مثل InstructPix2Pix) التي تم ضبطها فقط لتحرير الصور المستند إلى النص.
خذ الكستناء.
سؤال: ما هو القاسم المشترك بين هذين الشيئين؟
السياق: اختر أفضل إجابة.
الخيارات: (أ) لامع (ب) مالح
الجواب: لنفكر خطوة بخطوة:
فكر في كل شيء. الرقائق مالحة. المعجنات المالحة. إذن الجواب (ب).
وصف بالتفصيل جميع الكائنات في صورة معينة.
لافتة شارع موضوعة على عمود معدني. الشعار أزرق عليه نص أبيض. هناك ضوء أحمر على القطب. السماء زرقاء لامعة. هناك سيارات متوقفة في الشارع. توجد أشجار على جانبي الشارع. توجد مباني على جانبي الشارع.
بالمقارنة مع Flamingo (100B) و OpenFlamingo (40B) ، فإن البيانات النصية لنموذج CM3leon أقل بكثير (حوالي 3B توكنات).
ولكن فيما يتعلق بوصف صورة MS-COCO والإجابة على أسئلة VQA2 ، حقق CM3leon نفس أداء OpenFlamingo ذي العينة الصفرية ، بل إنه تغلب على Flamingo بما يقرب من 10 نقاط مئوية في مهمة VizWiz.
يهدف تحرير الصور الموجه بالهيكل إلى فهم وتفسير التعليمات النصية المقدمة جنبًا إلى جنب مع المعلومات الهيكلية أو التخطيطية.
يتيح ذلك لنماذج CM3leon إنشاء مجموعات صور متسقة بصريًا ومناسبة للسياق مع الالتزام بتعليمات هيكلية أو تخطيطية معينة.
في صورة تحتوي على تقسيمات فقط (بدون فئات نصية) ، قم بإنشاء صورة. يمثل الإدخال هنا الصورة التي تم استخراج التجزئة منها.
بالإضافة إلى ذلك ، هناك خدعة شائعة في مجال إنشاء الصور - استخدام مرحلة فائقة الدقة مدربة بشكل منفصل لإنشاء صور عالية الدقة من إخراج النموذج الأصلي.
بالنسبة لهذا النوع من مهام إنشاء نص إلى صورة ، يعمل CM3leon أيضًا بشكل جيد جدًا.
(2) عند غروب الشمس الطريق السريع الجميل المهيب
(3) جزيرة دائرية في وسط البحيرة محاطة بالغابات
وبعض جيل الأسلوب "الخيالي".
كيفية بناء CM3Leon
بناء
فيما يتعلق بالهندسة المعمارية ، يستخدم CM3Leon محولًا خاصًا بوحدة فك التشفير فقط مشابهًا لنموذج النص الناضج.
لكن الاختلاف هو أن CM3Leon قادر على إدخال وإنشاء النصوص والصور.
يدرب
من خلال اعتماد تقنية تحسين استرجاع التدريب المقترحة في الورقة البحثية "نمذجة اللغة متعددة الوسائط المعززة المستردة" ، تعمل Meta على تحسين كفاءة وإمكانية التحكم في نموذج CM3Leon بشكل كبير.
في الوقت نفسه ، قامت Meta أيضًا بضبط نموذج CM3Leon على العديد من مهام إنشاء الصور والنصوص.
مع استمرار نمو صناعة الذكاء الاصطناعي ، أصبحت النماذج التوليدية مثل CM3Leon أكثر تعقيدًا.
تتعلم هذه النماذج العلاقة بين الرؤية والنص من خلال التدريب على ملايين من الصور النموذجية ، ولكنها يمكن أن تعكس أيضًا التحيزات الموجودة في بيانات التدريب.
لذلك ، تتبنى Meta مجموعة البيانات المرخصة لتدريب CM3Leon.
توضح النتائج أيضًا أن CM3Leon لا يزال يحقق أداءً قويًا على الرغم من اختلاف توزيع البيانات تمامًا عن النماذج السابقة.
في هذا الصدد ، تأمل Meta أنه من خلال الجهود المشتركة للجميع ، يمكن إنشاء نموذج أكثر دقة وإنصافًا وإنصافًا.
تمهيد الطريق لنماذج اللغات متعددة الوسائط
بشكل عام ، تعتقد Meta أن الأداء الممتاز لـ CM3Leon في المهام المختلفة يعد خطوة مهمة نحو إنشاء صورة وفهم أكثر واقعية.
ومثل هذا النموذج يمكن أن يساعد في النهاية على تعزيز الإبداع وتحقيق تطبيقات أفضل في metaverse.
عن المؤلف
ليلي يو وبوين شي وراماكانث باسونورو هم مؤلفو الورقة البحثية.
ومن بين هؤلاء ، حصلت ليلي يو على درجة البكالوريوس من قسم الفيزياء بجامعة بكين ، ودرجة الدكتوراه في الهندسة الكهربائية وعلوم الكمبيوتر من معهد ماساتشوستس للتكنولوجيا.