سيتم إطلاق DALL·E 3 للاختبار! حل مشكلة رواد الفضاء الذين يمتطون الخيول، وتحديد 50 كائنًا في لوحة واحدة، ومايكروسوفت تشارك بعمق في البحث كما لم يحدث من قبل

المصدر: كيوبتس

تم فتح اختبار DALL·E 3 المحدود بواسطة Microsoft Bing أولاً، تعرف على ما إذا كنت أحد الأباطرة الأوروبيين؟

من WindowsLatest

لا يهم إذا لم تكن قد حصلت على المؤهل. إلى جانب معاينات أبحاث الطرف الثالث والتجارب الداخلية التي أجراها موظفو OpenAI، ظهرت حالات اختبار مختلفة واحدة تلو الأخرى، والتي من المؤكد أنها ستكون ممتعة.

والأكثر مبالغة فيه هو "ظهور 50 كائنًا مختلفًا في الصورة المحددة"، وتم رسم المئات منها.

بالإضافة إلى ترتيب البلاط البسيط، يمكن دمج هذه الكائنات بشكل أكثر إبداعًا.

بالنسبة للمفهوم المخالف للواقع المتمثل في رائد فضاء يركب الخيل، لم يكن بإمكان نماذج مختلفة من OpenAI وGoogle في الماضي سوى جذب رواد فضاء يركبون الخيول**.

واعتبرت الورقة بشكل عام حالة فاشلة، وسخر منها ماركوس، المتشائم في مجال الذكاء الاصطناعي في ذلك الوقت.

الآن، يمكن لـ DALL·E 3 التعامل معها بسهولة بدعم من ChatGPT.

التقدم الكبير الذي حققته DALL·E 3 هذه المرة ليس فقط نتيجة لجهود OpenAI الخاصة، ولكن أيضًا نتيجة التعاون المشترك بين ** وMicrosoft**.

على الرغم من عدم ذكر ذلك بوضوح، يشارك ما لا يقل عن ثلاثة مهندسين وباحثين من Microsoft في الجزء البحثي من قائمة المساهمة، ومعظم الأعضاء في جزء تحسين الاستدلال هم من فريق Microsoft DeepSpeed.

إذا نظرنا إلى الوراء في GPT-4، فقد تم تطويره بشكل أساسي داخليًا بواسطة OpenAI، ثم تم منحه حق الوصول المفتوح إلى Microsoft والمؤسسات البحثية الأخرى للاختبار.

ويمثل هذا التغيير في نموذج التعاون** أيضًا مزيدًا من تعميق العلاقة بين الشركتين**.

لوحة واحدة تحدد 50 كائنًا

وأكد الرئيس التنفيذي لشركة Microsoft Bing ** ميخائيل باراخين ** أن نسبة قليلة من المستخدمين المحظوظين قد تأهلوا بالفعل للاختبار.

نظرًا لأن عدد الأماكن محدود حقًا، فقد طرح مستخدمو الإنترنت الذين لا يستطيعون الانتظار أفكارهم عبر الإنترنت وطلبوا من الأشخاص الذين لديهم حسابات المساعدة في اختبارها.

مستخدم الإنترنت الذي اقترح رسم 50 كائنًا مختلفًا أراد فقط اختبار عدد الكائنات التي يمكن لـ DALL·E 3 وضعها في صورة واحدة، على غرار "نافذة السياق" لنموذج اللغة الكبير.

قبل ناثان شيبلي، وهو مصمم تابع لجهة خارجية حصل على نسخة معاينة من الدراسة، التحدي.

أولاً، طلب من ChatGPT أن يقوم بإدراج 50 شيئًا يوميًا بشكل عشوائي، ثم طلب منه مباشرةً رسم هذه الأشياء في لوحة. الكلمة السريعة الكاملة هي ChatGPT يكملها بنفسه، ثم يقوم DALL·E 3 برسمها.

بعد ذلك سأل ناثان: "هل يمكنك إنشاء صورة لراكب الأمواج وهو يضع هذه الأشياء في كومة أثناء ركوب الأمواج بقوة؟"

أضاف ChatGPT بعض التفاصيل في الكلمة السريعة:

راكب أمواج بولينيزي في منتصف العمر، ذو بشرة مشمسة، يحمل 50 شيئًا أثناء ركوب الأمواج بقوة، بما في ذلك كوب شاي، ودراجة، ومظلة... تتحطم الأمواج من حوله، وتعبيراته مليئة بالإصرار والذعر الطفيف، محاولًا تحقيق التوازن بين هذه الأشياء ولوح ركوب الأمواج له.

ونتيجة لذلك، حصلت على صورة تفي بالمتطلبات بشكل أساسي في محاولة واحدة، باستثناء أن تعبير الشخصية بدا أشبه بالذعر الشديد وليس الذعر الخفيف.

لاحقًا، طلب ناثان منظورًا أقل عمقًا، هذه المرة، قام ChatGPT بتغيير وصف الشخصية في الكلمة السريعة إلى "امرأة إسبانية مسنة".

اعتقد المتفرجون أن الأمر كان مفاجئًا للغاية، لكنهم أشاروا أيضًا إلى سبب عدم تناسب حجم قلم الرصاص مع الأشياء الأخرى.

يتوقع بعض الأشخاص أن النموذج يعرف فقط شكل الجسم، ولكن ليس حجمه النسبي، خاصة وأن الصور الدعائية للأقلام غالبًا ما تستخدم لقطات قريبة.

بالإضافة إلى ذلك، سأل ناثان أيضًا من ChatGPT عن معلمات الشاشة التي يمكن للمستخدم التحكم فيها.

استجاب ChatGPT على النحو التالي:

  • يصف:

يمكنك تقديم وصف تفصيلي للصورة المطلوبة. كلما كنت أكثر تحديدًا وتفصيلاً، كلما كانت الصورة الناتجة أقرب إلى رغباتك.

  • النمط والمتوسط:

يمكنك تحديد نمط الصورة أو وسطها، مثل "الرسم"، "الصورة"، "التوضيح"، "الرسوم المتحركة"، "الألوان المائية"، "العرض ثلاثي الأبعاد"، وما إلى ذلك.

  • دقة:

بشكل افتراضي، يتم إنشاء الصور بدقة 1729x1024. ولكن إذا كان الوصف الخاص بك يقترح صورة كاملة الطول أو شيء أكثر ملاءمة لنسب العرض إلى الارتفاع العالية، فسيتم إنشاء الصورة بدقة 1024 × 1792. يمكنك أيضًا طلب دقة مربعة (1024 × 1024) إذا لزم الأمر.

  • عدد الصور

: إذا لم تحدد واحدة، فعادةً ما أقوم بإنشاء أربع صور مختلفة بناءً على وصفك. ومع ذلك، يمكنك طلب رقم محدد (حتى أربعة).

  • يراجع

: إذا لم تكن راضيًا عن النتائج الأولية، فيمكنك تقديم تعليقات وطلب تعديلات. على الرغم من أنني لا أستطيع تعديل الصور الموجودة بشكل مباشر، إلا أنه يمكنني استخدام تعليقاتك لإنشاء صور جديدة تناسب رؤيتك بشكل أفضل.

  • البذور عشوائي

: إذا كنت تريد تعديل صورة سابقة، فيمكنني استخدام البذور الموجودة في البيانات الوصفية لتلك الصورة لإنشاء نسخة جديدة. وهذا يضمن تناسقًا معينًا بين الصور الأصلية والمعدلة.

  • يرجى الملاحظة،

تطبق بعض القيود. على سبيل المثال، لا يمكن إنشاء صور الشخصيات العامة وأنماط الفنانين خلال المائة عام الماضية بشكل مباشر.

التركيز على الظهر:

**ومع ذلك، يمكنني تقديم بدائل أو استخدام الصفات للتعبير عن جوهر أسلوب معين دون الاقتباس منه مباشرة. **

حل لغز رائد الفضاء أثناء ركوب الخيل

من بين الموظفين الداخليين في OpenAI، يعد Will DePue هو الأكثر نشاطًا في الكشف عن نتائج تجربة DALL·E 3.

وفي اختبار رائد الفضاء على ركوب الخيل، قال إنه لم يكن ناجحاً بنسبة 100%.

يمكنك القيام بذلك بشكل صحيح في محاولتين أو ثلاث لأن GPT-4 يعمل معك لتحسين الكلمات السريعة حتى تقوم بذلك بشكل صحيح.

مع بعض الجهد، يمكنك الحصول على أي شيء تريده تقريبًا.

حاول بعض مستخدمي الإنترنت استخدام MidJourney للحصول على نفس النتائج، لكن لا يمكن القول إلا أن الأمر ليس مستحيلًا تمامًا، ولكنه يتطلب الكثير من الجهد.

يكاد يكون مستحيلاً، ويتطلب الكثير من هندسة التلميحات، ويصعب إعادة إنتاجه.

إذا كنت من مستخدمي MidJourney ذوي الخبرة، فقد تحاول أيضًا معرفة ما إذا كان يعمل أم لا.

في تحدي "8 زرافات تشرب الماء" الذي طرحه مستخدمو الإنترنت، أظهرت DALL · E 3 مرة أخرى ضعف صعوبة العد الدقيق.

احسب عدد الزرافات الموجودة في الصورة

كما أدت المزيد من المحاولات الخاطئة إلى ظهور زرافة ذات رأسين.

إن جعل الذكاء الاصطناعي يقوم بالعد بشكل صحيح لا يحل هذه المرة، لكنه على الأقل يحل مشكلة فهم العلاقات المكانية.

في التحدي "أربعة حمير وحشية تجري في الأراضي العشبية، وأسد يطارد خلفها، ونسر في الأعلى، لا توجد حيوانات أخرى في الصورة" الذي اقترحه مستخدمو الإنترنت، العلاقة المكانية صحيحة بشكل أساسي، ولكن هناك علاقة إضافية الحمار الوحشي.

بالمقارنة، يتمتع كل من DALL·E 2 وStable Diffusion بفهم أسوأ للعلاقات المكانية.

آدم جولدبيرج، المسؤول عن إصدار ChatGPT المؤسسي في OpenAI، نشر أيضًا العديد من النتائج عالية الجودة، لكنه لم يشارك الكلمات السريعة.

جيري توريك، المسؤول عن كتابة رموز الذكاء الاصطناعي وأدوات الاتصال، قام بإنشاء العديد من اللوحات المفاهيمية التجريدية، مثل "تقسيم الخلايا الميكانيكية".

و "أشجار برامج الكمبيوتر عبر المجرة".

تعاون Microsoft OpenAI

لقد حقق DALL·E 3 تحسنًا كبيرًا هذه المرة، بالإضافة إلى دمج ChatGPT، كيف يتم بالضبط جزء إنشاء الصورة؟

لسوء الحظ، نظرا لاتجاه OpenAI الذي يقترب أكثر فأكثر، فمن المرجح أنه لن ينشر أبحاثا مثل الجيلين السابقين. ولا يمكننا سوى إجراء بعض التخمينات من قائمة المساهمات.

هناك خمسة مؤلفين في ورقة DALL·E 2.

أما بالنسبة لـ DALL·E 3، بغض النظر عن المنتج والأمن والاتصالات العامة والفرق القانونية، فقد شارك 18 شخصًا في الجزء البحثي وحده.

ومن بينهم يانغ سونغ، أحد خريجي جامعة تسينغهوا والذي اقترح نماذج الاتساق.

يعد نموذج الاتساق أسرع من نموذج الانتشار الأكثر شيوعًا، ويمكنه إنشاء 64256*256 صورة في 3.5 ثانية.

ومع ذلك، فإن مساهمة سونج يانج البحثية هذه المرة كانت بسيطة، وليس من المؤكد ما إذا كان DALL · E 3 قد استخدم نموذج الاتساق أم لا، ومن المرجح أنه استعار طريقته في نموذج الانتشار المحسن.

بالإضافة إلى ذلك، بالإضافة إلى مؤلف DALL·E 2 وOuyang Long من فريق ChatGPT، هناك ثلاثة باحثين على الأقل من Microsoft.

تخرج الدكتور جيانفينج وانج من جامعة العلوم والتكنولوجيا في الصين ويعمل كباحث رئيسي في شركة Microsoft.

تخرج الدكتور ليجوان وانغ من جامعة تسينغهوا ويعمل مديرًا للأبحاث في شركة Microsoft.

وقد شارك الاثنان في بحث NUWA-Ininity، وهو توليد صور قماشية لا حصر لها.

ليندسي لي (ليندسي لي) هي خريجة معهد بكين للتكنولوجيا. حصلت على درجتي ماجستير من جامعة بوردو وجامعة كاليفورنيا في سان دييغو. وهي باحثة أولى في شركة مايكروسوفت وقد نشرت العديد من أوراق المؤتمرات الرائدة في مجال الوسائط المتعددة.

بالإضافة إلى البحث، يتمتع تحسين الاستدلال الخاص بـ DALL·E 3 بمشاركة عميقة من فريق Microsoft DeepSpeed.

Deepspeed هي مكتبة مفتوحة المصدر لتحسين التعلم العميق تقلل من استهلاك طاقة الحوسبة واستخدام الذاكرة، وتدرب وتستنتج نماذج موزعة واسعة النطاق من خلال التوازي الأفضل على الأجهزة الموجودة.

أعرب الكثير منهم عن سعادتهم بالمشاركة في هذا العمل وكانوا متحمسين لإصدار DALL·E 3.

أخيرًا، من بين المساهمات الخاصة، ** الرئيس التنفيذي لشركة Bing ميخائيل باراخين ** و ** نائب رئيس Azure Cloud ميشا بيلينكو ** من بينهم.

أكدت Microsoft أيضًا في أنشطة الإصدار السابق أن Bing سيدمج DALL·E 3 مباشرة.

وفقًا للقواعد الحالية، فإن DALL·E 2 على Bing مجاني. سيتم إصدار 99 رمزًا مميزًا للتسريع، وبدون الرموز المميزة، سيستغرق الأمر وقتًا أطول في قائمة الانتظار.

على الرغم من أن تكلفة DALL·E 3 ستبلغ 20 دولارًا أمريكيًا شهريًا على ChatGPT Plus في أكتوبر.

ولكن بما أن GPT-4 متوفر مجانًا على Bing، يمكنك أيضًا التطلع إلى موجة من اللعب المجاني DALL·E 3 في المستقبل~

الروابط المرجعية:

[1]

[2]

[3]

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت