تفسير أقوى نموذج رسم بياني أدبي ل OpenAI - DALL · ه 3

المصدر الأصلي: مجتمع AIGC المفتوح

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

حققت Midjourney و Stable Difusion نجاحا كبيرا في تحقيق الدخل التجاري والهبوط القائم على السيناريو ، مما سمح ل OpenAI برؤية فرص عمل جديدة وإطلاق DALL · أحد الأسباب المهمة ل E 3.

في الأسبوع الماضي ، أعلنت OpenAI عن التوافر الكامل لنموذج الرسم البياني Vensheng DALL · بين مستخدمي ChatGPT Plus و Enterprise Edition. E3 ، وفي الوقت نفسه إصدار نادر من الأوراق البحثية.

دال· E 3 والجيلين السابقين من DALL · E 、 دال · بالمقارنة مع E 2 ، فقد حققت قفزة نوعية في الفهم الدلالي ، وجودة الصورة ، وتعديل الصورة ، وتفسير الصور ، وإدخال النص الطويل ، وما إلى ذلك ، خاصة بالاشتراك مع ChatGPT ، لتصبح تطبيقا جديدا للورقة الرابحة ل OpenAI.

عنوان الورقة:

سيعتمد "مجتمع AIGC المفتوح" التالي على DALL · تشرح ورقة E3 المبادئ التقنية الرئيسية ووظائف كل وحدة.

وجد الباحثون أن نماذج الصور التي تم إنشاؤها بواسطة النص غالبا ما واجهت صعوبات مختلفة في اتباع أوصاف الصور التفصيلية ، وتجاهل الكلمات في الموجه أو الخلط بين معانيها ، بسبب رداءة جودة أوصاف الصور في مجموعة بيانات التدريب.

لاختبار هذه الفرضية ، قام الباحثون أولا بتدريب نموذج يولد تسميات توضيحية للصور الوصفية. يتم تدريب النموذج بعناية لإنشاء أوصاف مفصلة ودقيقة للصور.

بعد استخدام هذا النموذج لإعادة إنشاء أوصاف لمجموعة بيانات التدريب ، قارن الباحثون نماذج صور متعددة تم إنشاؤها بالنص تم تدريبها على الوصف الأصلي والوصف الذي تم إنشاؤه حديثا.

تظهر النتائج أن النموذج الذي تم تدريبه على الوصف الجديد أفضل بكثير من نموذج الوصف الأصلي في اتباع المطالبات. تم تدريب هذه الطريقة لاحقا على مجموعات بيانات واسعة النطاق - DALL-E 3.

من منظور البنية التقنية ل DALL-E 3 ، يتم تقسيمها بشكل أساسي إلى وحدتين: إنشاء وصف الصورة وتوليد الصور.

وحدة إنشاء وصف الصورة

تستخدم هذه الوحدة مشفر الصور CLIP (التدريب المسبق للغة التباينية والصورة) ونموذج لغة GPT (GPT-4) لإنشاء أوصاف نصية مفصلة لكل صورة.

من خلال إنشاء مجموعات بيانات وصف الموضوع على نطاق صغير ، ومجموعات بيانات الوصف التفصيلي واسعة النطاق ، ووضع قواعد الإنشاء ، يزيد الباحثون بشكل كبير من كمية معلومات وصف الصورة الناتجة عن الوحدة ، ويقدمون دعما قويا لتوليد الصور اللاحقة. المهام الرئيسية لكل وحدة هي كما يلي:

**1) مشفر الصور CLIP **

CLIP هو نموذج مدرب لمطابقة نص الصورة يقوم بترميز صورة إلى متجه ثابت الطول يحتوي على المعلومات الدلالية للصورة. يستخدم DALL-E 3 مشفر الصور الخاص ب CLIP لتشفير صورة التدريب إلى متجه ميزة الصورة كجزء من إدخال إنشاء النص الشرطي.

**2) نموذج لغة GPT **

يبني DALL-E 3 نموذجا لغويا يعتمد على بنية GPT ، ويتعلم إنشاء أوصاف نصية متماسكة من خلال تعظيم الاحتمال المشترك لتسلسل النص لأخذ عينات عشوائية.

3) إنشاء نص شرطي

من خلال الجمع بين الاثنين أعلاه ، يتم إدخال متجه ميزة الصورة في نموذج لغة GPT مع تسلسل الكلمات السابق ، ويمكن تحقيق إنشاء النص الشرطي للصورة. من خلال التدريب ، تتعلم الوحدة إنشاء أوصاف Deive مفصلة لكل صورة.

4) تحسين التدريب

على الرغم من اكتمال البنية التحتية ل DALL-E 3 ، إلا أن نتائج التدريب المباشر ليست مثالية بما يكفي لإنشاء أوصاف مفصلة. لذلك ، قام الباحثون بإجراء التحسينات التقنية التالية:

* بناء مجموعات بيانات صغيرة الحجم ، وجمع على وجه التحديد أوصاف مفصلة للمواضيع ، ونماذج اللغة الدقيقة ، وتميل إلى وصف موضوعات الصور.

  • بناء مجموعات بيانات وصف مفصلة واسعة النطاق ، ووصف جوانب مختلفة مثل الموضوع والخلفية واللون والنص ، وما إلى ذلك ، وزيادة تحسين جودة الوصف من خلال الضبط الدقيق.
  • ضع قواعد مثل طول وأسلوب الأوصاف التي تم إنشاؤها لمنع نماذج اللغة من الانحراف عن النمط البشري.

وحدة توليد الصور

تستخدم هذه الوحدة أولا VAE لضغط الصور عالية الدقة إلى متجهات منخفضة الأبعاد لتقليل صعوبة التعلم. ثم يتم ترميز النص إلى متجهات باستخدام محول T5 وحقنه في نموذج الانتشار من خلال طبقة GroupNorm لتوجيه اتجاه توليد الصورة.

يعتقد الباحثون أن إضافة نموذج الانتشار يعزز بشكل كبير تأثير توليد تفاصيل الصورة. العملية المحددة هي كما يلي:

1) ضغط الصور

يتم ضغط الصور عالية الدقة أولا في متجهات منخفضة الأبعاد بواسطة نموذج VAE لتقليل صعوبة توليد الصور. يستخدم DALL-E 3 اختزال 8x ، ويتم ضغط صور 256 بكسل في متجه كامن بحجم 32 × 32.

2) برنامج تشفير النص

استخدم شبكات مثل T5 Transformer لتشفير المطالبات النصية في متجهات لإدخالها في نماذج توليد الصور.

**3) الانتشار الكامن **

هذه هي التقنية الأساسية لتوليد الصور ، والتي تحلل مشكلة توليد الصور إلى اضطرابات متعددة صغيرة الحجم لناقل الضوضاء ، وتقترب تدريجيا من الصورة المستهدفة. المفتاح هو تصميم العمليات الأمامية والخلفية المناسبة.

  1. حقن النص **

يتم حقن متجه النص المشفر في نموذج الانتشار الكامن من خلال طبقة GroupNorm لتوجيه اتجاه توليد الصورة لكل جولة من التكرار.

5) تحسين التدريب

وجد الباحثون أن تدريب نموذج انتشار إضافي على مساحة كامنة للصورة المضغوطة يمكن أن يزيد من تحسين جودة توليد التفاصيل. هذا هو أحد الأسباب التي تجعل DALL-E 3 ينتج صورا بجودة أفضل من الجيلين السابقين.

** بيانات تقييم CLIP **

استخدم الباحثون أولا نموذج CLIP لحساب التشابه بين الصورة التي تم إنشاؤها بواسطة DALL-E 3 ونص الوصف الأصلي ، أي درجة CLIP. اختاروا عشوائيا 4096 وصفا للصور من مجموعة بيانات MSCOCO كنص سريع ، وطلبوا من DALL-E 2 و DALL-E 3 و Stable Diffusion XL إنشاء صور مقابلة ، ثم قاموا بحساب متوسط درجات CLIP للثلاثة.

أظهرت النتائج أن درجة CLIP في DALL-E 3 وصلت إلى 32.0 ، متفوقة على DALL-E 2 31.4 و Stable Diffusion XL 30.5.

يوضح هذا أن الصورة التي تم إنشاؤها بواسطة DALL-E 3 تتناسب بشكل أفضل مع نص الوصف الأصلي ، وأن النص يوجه إنشاء الصورة بشكل أفضل.

** بيانات تقييم Drawbench **

تمت مقارنة أداء النماذج على مجموعة بيانات Drawbench. تحتوي مجموعة البيانات على العديد من المطالبات النصية الهشة ، واختبار فهم النموذج للمطالبات.

استخدم الباحثون GPT-V ، وهو نموذج لغة بصرية ، للحكم تلقائيا على صحة الصور التي تم إنشاؤها.

في الاختبار الفرعي لمطالبات النص القصير ، وصلت النسبة المئوية للصور التي تم إنشاؤها بشكل صحيح بواسطة DALL-E 3 إلى 70.4٪ ، متجاوزة بشكل كبير 49٪ من DALL-E 2 و 46.9٪ من الانتشار المستقر XL.

في مطالبات النص الطويلة ، حصل DALL-E 3 أيضا على 81٪ صحيحة ، واستمر في التفوق على الطرز الأخرى.

** تقييم T2I-CompBench **

من خلال الاختبار الفرعي للارتباط في T2I-CompBench ، يتم التحقيق في قدرة النموذج على معالجة مطالبات فئة المجموعة. في الاختبارات الثلاثة لربط الألوان وربط الشكل وربط النسيج ، احتل DALL-E 3 المرتبة الأولى بين النماذج في نسبة الربط الصحيحة ، مما يدل تماما على قدرته على فهم إشارات التركيب.

التقييم اليدوي

كما دعا الباحثون البشر للحكم على العينات التي تم إنشاؤها من حيث اتباع الإشارات والتماسك الأسلوبي وما إلى ذلك. في تقييم ل 170 نصيحة ، تفوق DALL-E 3 بشكل كبير على Midjourney و Stable Diffusion XL.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت