في الأشهر الـ 18 الماضية ، كان إنشاء محتوى الذكاء الاصطناعي (AIGC) بلا شك الموضوع الأكثر سخونة والأكثر سخونة في دائرة رأس المال الاستثماري التكنولوجي في وادي السيليكون.
** DALL-E ** (يُعرض في يناير 2021)
** Midjourney ** (يُعرض في يوليو 2022)
** انتشار مستقر ** (يُعرض في أغسطس 2022)
يمكن لهذا النوع من الأدوات التوليدية ثنائية الأبعاد تحويل المطالبات النصية () إلى صور فنية في بضع ثوانٍ فقط. مع تطور وتطور أدوات AIGC ثنائية الأبعاد ، يتم إحداث ثورة في سير العمل الإبداعي للفنانين والمصممين واستوديوهات الألعاب.
أين الاختراق التالي لـ AIGC؟ قدم العديد من المستثمرين والمحاربين القدامى في الصناعة تنبؤات - توليد البيانات ثلاثية الأبعاد.
لاحظنا أن 3D AIGC يمر بمرحلة حيث تم تطوير 2D AIGC. في هذه المقالة ، سنناقش الاختراقات الجديدة لـ AIGC في مجال البيانات ثلاثية الأبعاد بمزيد من العمق ، ونتطلع إلى كيف يمكن لأدوات الذكاء الاصطناعي التوليدية تحسين الكفاءة والابتكار في توليد البيانات ثلاثية الأبعاد.
** 01 استعراض التطور السريع لـ 2D AIGC **
يمكن تلخيص تطوير 2D AIGC بإيجاز في المراحل الثلاث التالية من التطوير:
** المرحلة 1: التحرير الذكي للصور **
في وقت مبكر من عام 2014 ، مع إدخال شبكة المواجهة التوليدية (GAN ، أعمال المتابعة النموذجية StyleGAN) والتشفير التلقائي المتغير (VAE ، أعمال المتابعة النموذجية VQVAE ، alignDRAW) ، بدأ استخدام نماذج الذكاء الاصطناعي على نطاق واسع في الجيل الذكي لـ صور ثنائية الأبعاد وتحريرها. تم استخدام نماذج الذكاء الاصطناعي المبكرة بشكل أساسي لتعلم بعض توزيعات الصور البسيطة نسبيًا أو إجراء بعض عمليات تحرير الصور.وتشمل التطبيقات الشائعة: إنشاء الوجه ، ونقل نمط الصورة ، والدقة الفائقة للصورة ، وإكمال الصورة ، وتحرير الصور الذي يمكن التحكم فيه.
لكن شبكات إنشاء / تحرير الصور المبكرة لها تفاعل محدود للغاية متعدد الوسائط مع النص. بالإضافة إلى ذلك ، عادة ما يكون تدريب شبكات GAN صعبًا ، وغالبًا ما تواجه مشكلات مثل انهيار الوضع وعدم الاستقرار.عادةً ما تكون البيانات التي تم إنشاؤها ضعيفة في التنوع ، كما تحدد سعة النموذج أيضًا الحد الأعلى لمقياس البيانات المتاح ؛ غالبًا ما يواجه VAE الصورة التي تم إنشاؤها ضبابية وغيرها من القضايا.
** المرحلة الثانية: قفزة نموذج الرسم البياني لفنسنت **
مع اختراق تقنية توليد الانتشار (الانتشار) ، وظهور وتطوير مجموعات بيانات متعددة الوسائط واسعة النطاق (مثل مجموعة بيانات لايون) ونماذج تمثيل متعددة الوسائط (مثل نموذج CLIP الصادر عن OpenAI) ، فإن المجال سيكون إنشاء الصور ثنائية الأبعاد في عام 2021. وقد تم إحراز تقدم كبير. بدأ نموذج إنشاء الصور في التفاعل بعمق مع النص ، وظهر نموذج الرسم البياني واسع النطاق في فينسنت لأول مرة بشكل مذهل.
عندما تطلق OpenAI DALL-E في أوائل عام 2021 ، ستبدأ تقنية AIGC حقًا في إظهار إمكانات تجارية كبيرة. يمكن لـ DALL-E إنشاء صور واقعية ومعقدة من إشارات نصية عشوائية بمعدل نجاح محسّن بشكل كبير. في غضون عام ، تبع عدد كبير من نماذج الرسم البياني فينسنت بسرعة ، بما في ذلك DALL-E 2 (تمت ترقيته في أبريل 2022) و Imagen (تم إصداره بواسطة Google في مايو 2022). على الرغم من أن هذه التقنيات لم تكن فعالة بعد في مساعدة المبدعين الفنيين على إنتاج محتوى يمكن وضعه مباشرة في الإنتاج ، إلا أنها جذبت انتباه الجمهور وحفزت القدرة الإبداعية والإنتاجية للفنانين والمصممين واستوديوهات الألعاب.
** المرحلة الثالثة: من الرائع إلى المنتج **
مع تحسين التفاصيل الفنية وتكرار التحسين الهندسي ، تطورت 2D AIGC بسرعة. بحلول النصف الثاني من عام 2022 ، أصبحت نماذج مثل Midjourney و Stable Diffusion من أدوات AIGC الشائعة. مدفوعة بمجموعات بيانات التدريب واسعة النطاق ، فإن أداء تقنيات AIGC في تطبيقات العالم الحقيقي قد أفاد المستخدمين الأوائل في صناعات الإعلام والإعلان والألعاب. بالإضافة إلى ذلك ، فإن ظهور وتطوير تقنيات الضبط الدقيق للنماذج الكبيرة (مثل ControlNet و LoRA) يمكن الأشخاص أيضًا من "تخصيص" تعديل النماذج الكبيرة للذكاء الاصطناعي وتوسيعها وفقًا لاحتياجاتهم الفعلية وكمية صغيرة من بيانات التدريب ، وذلك من أجل تتكيف بشكل أفضل مع تطبيقات محددة مختلفة (مثل التصميم ثنائي الأبعاد ، وإنشاء الشعار ، وإنشاء رمز الاستجابة السريعة ، وما إلى ذلك).
يستغرق التفكير والنمذجة باستخدام أدوات AIGC الآن ساعات أو أقل في كثير من الحالات ، بدلاً من الأيام أو الأسابيع التي كانت تستغرقها. في حين أن معظم مصممي الجرافيك المحترفين لا يزالون يعدلون أو يعيدون إنشاء الرسومات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، فمن الشائع بشكل متزايد أن تستخدم المدونات الشخصية أو الإعلانات الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي مباشرةً.
تأثيرات مختلفة لنص alignDRAW و DALL-E 2 و Midjourney لتحويل الصورة.
بالإضافة إلى تحويل النص إلى صورة ، تستمر AIGC ثنائية الأبعاد في إجراء المزيد من التطورات الحديثة. على سبيل المثال ، تقوم Midjourney وشركات ناشئة أخرى مثل Runway و Phenaki بتطوير إمكانات تحويل النص إلى فيديو. بالإضافة إلى ذلك ، اقترح Zero-1-to-3 طريقة لإنشاء صور مقابلة من زوايا مشاهدة مختلفة من صورة ثنائية الأبعاد لكائن.
نظرًا للطلب المتزايد على البيانات ثلاثية الأبعاد في صناعات الألعاب والروبوتات ، فإن الأبحاث المتطورة الحالية حول AIGC تتحول تدريجياً إلى توليد البيانات ثلاثية الأبعاد. نتوقع نمط تطوير مماثل لـ 3D AIGC.
** لحظة "DALL-E" ثلاثية الأبعاد لـ AIGC **
تخبرنا الاختراقات التكنولوجية الحديثة في مجال 3D أن لحظة "DALL-E" لـ 3D AIGC قادمة!
من DreamFields في نهاية عام 2021 إلى DreamFusion و Magic3D في النصف الثاني من عام 2022 ، ثم ProlificDreamer في مايو من هذا العام ، بفضل تطوير المجالات متعددة الوسائط ونماذج الرسوم البيانية في Vincent ، تم تحقيق العديد من الاختراقات في النموذج الأكاديمي ثلاثي الأبعاد لـ ونشينغ. عدة طرق قادرة على إنشاء نماذج ثلاثية الأبعاد عالية الجودة من إدخال النص.
ومع ذلك ، تحتاج معظم هذه الاستكشافات المبكرة إلى تحسين التمثيل ثلاثي الأبعاد من البداية عند إنشاء كل نموذج ثلاثي الأبعاد ، بحيث تلبي المنظورات ثنائية الأبعاد المقابلة للتمثيل ثلاثي الأبعاد توقعات المدخلات والنماذج السابقة. نظرًا لأن مثل هذه التحسينات تتطلب عادةً عشرات الآلاف من التكرارات ، فإنها غالبًا ما تستغرق وقتًا طويلاً. على سبيل المثال ، يمكن أن يستغرق إنشاء نموذج شبكة ثلاثية الأبعاد واحد ما يصل إلى 40 دقيقة في Magic3D وساعات في ProlificDreamer. بالإضافة إلى ذلك ، فإن أحد التحديات الكبرى للجيل ثلاثي الأبعاد هو أن النموذج ثلاثي الأبعاد يجب أن يكون متسقًا في شكل الكائن من زوايا مختلفة. غالبًا ما تواجه طرق AIGC ثلاثية الأبعاد الحالية مشكلة Janus ، أي أن الكائنات ثلاثية الأبعاد التي تم إنشاؤها بواسطة AI لها رؤوس متعددة أو وجوه متعددة.
مشكلة جانوس بسبب عدم تناسق الشكل ثلاثي الأبعاد في ProlificDreamer. على اليسار منظر أمامي لطائر بلوبيرد يبدو طبيعيًا. على اليمين صورة محيرة تصور طائرًا بوجهين.
ولكن من ناحية أخرى ، تحاول بعض الفرق اختراق نموذج الجيل القائم على التحسين ، وإنشاء نماذج ثلاثية الأبعاد من خلال مسار تقني واحد للتنبؤ الأمامي ، مما يحسن بشكل كبير سرعة ودقة الجيل ثلاثي الأبعاد. تتضمن هذه الطرق Point-E و Shap-E (تم إصدارهما بواسطة OpenAI في 2022 و 2023 ، على التوالي) و One-2–3–45 (تم إصداره بواسطة جامعة كاليفورنيا في سان دييغو في عام 2023). وتجدر الإشارة بشكل خاص إلى One-2–3–45 ، الذي تم إصداره في الشهر الماضي ، وهو قادر على إنشاء شبكة ثلاثية الأبعاد عالية الجودة ومتسقة من صورة ثنائية الأبعاد في 45 ثانية فقط!
تحليل مقارن لصورة واحدة بأساليب شبكة ثلاثية الأبعاد. من اليسار إلى اليمين ، يمكننا أن نلاحظ أن وقت المعالجة قد انخفض بشكل كبير من أكثر من ساعة إلى أقل من دقيقة. تتميز كل من Point-E و Shap-E و One-2–3–45 جميعها بالسرعة والدقة.
هذه الاختراقات التكنولوجية الأخيرة في مجال 3D AIGC لا تحسن بشكل كبير من سرعة التوليد والجودة فحسب ، بل تجعل مدخلات المستخدم أكثر مرونة أيضًا. يمكن للمستخدمين إما الإدخال من خلال المطالبات النصية ، أو إنشاء النموذج ثلاثي الأبعاد المطلوب من خلال صورة ثنائية الأبعاد بمزيد من المعلومات. هذا يوسع بشكل كبير من إمكانيات 3D AIGC من حيث التطبيقات التجارية.
** الذكاء الاصطناعي يُحدث ثورة في عملية الإنتاج ثلاثية الأبعاد **
أولاً ، دعنا نفهم سير العمل الذي يحتاج المصممون ثلاثي الأبعاد التقليديون إلى اتباعه لإنشاء نماذج ثلاثية الأبعاد:
اسكتشات المفاهيم: يقوم مصممو فن المفاهيم بالعصف الذهني وتصور النماذج بالأحجام الطبيعية المطلوبة بناءً على مدخلات العميل والمراجع المرئية.
النماذج الأولية ثلاثية الأبعاد: يستخدم مصممو النماذج برامج احترافية لإنشاء الشكل الأساسي للنموذج والتكرار بناءً على ملاحظات العملاء.
تحسين النموذج: أضف التفاصيل واللون والملمس وخصائص الرسوم المتحركة (مثل التزوير والإضاءة وما إلى ذلك) إلى النموذج ثلاثي الأبعاد الخام.
إنهاء النموذج: يستخدم المصممون برنامج تحرير الصور لتحسين العرض النهائي ، أو ضبط الألوان ، أو إضافة تأثيرات ، أو إجراء توليف العناصر.
تستغرق هذه العملية عادةً بضعة أسابيع ، وربما تستغرق وقتًا أطول إذا كانت الرسوم المتحركة متضمنة. ومع ذلك ، يمكن جعل كل خطوة من هذه الخطوات أسرع بمساعدة الذكاء الاصطناعي.
يُسهل مولد الصور متعدد العروض القوي (على سبيل المثال ، Zero-1 – to – 3 استنادًا إلى Stable Diffusion و Midjourney) العصف الذهني الإبداعي ويولد رسومات صورية متعددة العروض.
يمكن لتقنيات Text-to-3D أو image-to-3D (على سبيل المثال ، One-2–3–45 أو Shap-E) إنشاء عدة نماذج أولية ثلاثية الأبعاد في دقائق ، مما يوفر للمصممين نطاقًا واسعًا من الخيارات.
باستخدام تحسين النموذج ثلاثي الأبعاد (على سبيل المثال ، Magic 3D أو ProlificDreamer) ، يمكن تحسين النماذج الأولية المحددة تلقائيًا في غضون ساعات.
بمجرد أن يصبح النموذج المكرر جاهزًا ، يمكن للمصمم ثلاثي الأبعاد تصميم وإكمال النموذج عالي الدقة.
مقارنة بين سير عمل الإنتاج ثلاثي الأبعاد التقليدي والمدفوع بالذكاء الاصطناعي
** هل ستحل تقنية 3D AIGC محل البشر؟ **
استنتاجنا هو أنه ليس بعد. لا يزال الأشخاص رابطًا لا غنى عنه في الرابط ثلاثي الأبعاد AIGC.
على الرغم من أن تقنية إنشاء النماذج ثلاثية الأبعاد المذكورة أعلاه يمكن أن يكون لها العديد من التطبيقات في مجال الروبوتات والقيادة الذاتية والألعاب ثلاثية الأبعاد ، إلا أن عملية الإنتاج الحالية لا تزال غير قادرة على تلبية مجموعة واسعة من التطبيقات.
تحقيقًا لهذه الغاية ، أجرى Silicon Rabbit Jun مقابلة مع ** البروفيسور Su Hao ** من جامعة كاليفورنيا ، سان دييغو. وهو خبير رائد في مجالات التعلم العميق ثلاثي الأبعاد والذكاء الاصطناعي المجسد. أحد مؤلفي –3–45 نموذج. يعتقد البروفيسور Su Hao أن عنق الزجاجة الرئيسي لنموذج الجيل ثلاثي الأبعاد الحالي هو عدم وجود عدد كبير من مجموعات البيانات ثلاثية الأبعاد عالية الجودة. تحتوي مجموعات البيانات ثلاثية الأبعاد المستخدمة بشكل شائع حاليًا مثل ShapeNet (حوالي 52K شبكة ثلاثية الأبعاد) أو Objaverse (حوالي 800K نماذج ثلاثية الأبعاد) على نماذج تحتاج إلى تحسين من حيث الكمية وجودة التفاصيل. مقارنة بمجموعات البيانات الكبيرة في المجال ثنائي الأبعاد (على سبيل المثال ، LAION-5B) ، لا يزال حجم بياناتها بعيدًا عن أن يكون كافياً لتدريب النماذج ثلاثية الأبعاد الكبيرة.
درس البروفيسور سو هاو ذات مرة تحت إشراف البروفيسور ليونيداس غويباس ، وهو رائد في الحوسبة الهندسية وعضو في الأكاديمية الأمريكية للعلوم ، وشارك في مشروع ImageNet بقيادة البروفيسور فيفي لي كمساهم مبكر. وشدد البروفيسور سو هاو ، بإلهام منهم ، على الدور الرئيسي لمجموعات البيانات ثلاثية الأبعاد الشاملة في تطوير التكنولوجيا ، ووضع الأساس لظهور وازدهار مجال التعلم العميق ثلاثي الأبعاد.
بالإضافة إلى ذلك ، تعد النماذج ثلاثية الأبعاد أكثر تعقيدًا بكثير من الصور ثنائية الأبعاد ، على سبيل المثال:
هيكل الجزء: تتطلب الألعاب أو التطبيقات الرقمية المزدوجة أجزاء منظمة من كائنات ثلاثية الأبعاد (على سبيل المثال ، PartNet) ، بدلاً من شبكة ثلاثية الأبعاد مفردة ؛
المفاصل والارتباطات: الخصائص الرئيسية للتفاعل مع الكائنات ثلاثية الأبعاد ؛
الملمس والمواد: مثل الانعكاس ، ومعامل الاحتكاك السطحي ، وتوزيع الكثافة ، ومعامل يونغ وغيرها من الخصائص الرئيسية التي تدعم التفاعل ؛
التشغيل والمعالجة: السماح للمصممين بالتفاعل والتعامل مع النماذج ثلاثية الأبعاد بشكل أكثر فعالية.
والنقاط المذكورة أعلاه هي المكان الذي يمكن أن تستمر فيه الخبرة البشرية في لعب دور مهم.
يعتقد البروفيسور سو هاو أنه في المستقبل ، يجب أن يكون لتوليد البيانات ثلاثية الأبعاد المدفوع بالذكاء الاصطناعي الخصائص التالية:
دعم إنشاء نماذج ثلاثية الأبعاد تدعم التطبيقات التفاعلية. يتضمن هذا التفاعل كلاً من التفاعل المادي بين الكائنات (مثل الاصطدامات) والتفاعل بين الأشخاص والأشياء (طرق التفاعل المادية وغير المادية) ، مما يجعل البيانات ثلاثية الأبعاد في اللعبة ، metaverse ، المحاكاة الفيزيائية وغيرها من السيناريوهات يمكن استخدامها على نطاق واسع ؛
دعم إنشاء المحتوى ثلاثي الأبعاد بمساعدة الذكاء الاصطناعي ، مما يجعل النمذجة أكثر كفاءة ؛
دعم عملية إنشاء الإنسان في الحلقة ، واستخدام المواهب الفنية البشرية لتحسين جودة البيانات التي تم إنشاؤها ، وبالتالي زيادة تحسين أداء النمذجة وتشكيل تأثير دولاب الموازنة للبيانات المغلقة.
على غرار التطور المذهل لتقنيات مثل DALL-E و ChatGPT في الأشهر الـ 18 الماضية ، نعتقد اعتقادًا راسخًا أن ما سيحدث في مجال 3D AIGC ، من المرجح جدًا أن يتجاوز ابتكاره وتطبيقه توقعاتنا ، فإن Silicon Rabbit سوف الاستمرار في تعميق الاستكشاف والإخراج.
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
2D إلى 3D اختراق جديد! تحليل متعمق لتقنية AIGC ، مقالة لفهم التاريخ والوضع الحالي لتوليد البيانات ثلاثية الأبعاد
المؤلف: Chengxi المحرر: Manman Zhou
المصدر: Silicon Rabbit Race
في الأشهر الـ 18 الماضية ، كان إنشاء محتوى الذكاء الاصطناعي (AIGC) بلا شك الموضوع الأكثر سخونة والأكثر سخونة في دائرة رأس المال الاستثماري التكنولوجي في وادي السيليكون.
** DALL-E ** (يُعرض في يناير 2021)
** Midjourney ** (يُعرض في يوليو 2022)
** انتشار مستقر ** (يُعرض في أغسطس 2022)
يمكن لهذا النوع من الأدوات التوليدية ثنائية الأبعاد تحويل المطالبات النصية () إلى صور فنية في بضع ثوانٍ فقط. مع تطور وتطور أدوات AIGC ثنائية الأبعاد ، يتم إحداث ثورة في سير العمل الإبداعي للفنانين والمصممين واستوديوهات الألعاب.
أين الاختراق التالي لـ AIGC؟ قدم العديد من المستثمرين والمحاربين القدامى في الصناعة تنبؤات - توليد البيانات ثلاثية الأبعاد.
لاحظنا أن 3D AIGC يمر بمرحلة حيث تم تطوير 2D AIGC. في هذه المقالة ، سنناقش الاختراقات الجديدة لـ AIGC في مجال البيانات ثلاثية الأبعاد بمزيد من العمق ، ونتطلع إلى كيف يمكن لأدوات الذكاء الاصطناعي التوليدية تحسين الكفاءة والابتكار في توليد البيانات ثلاثية الأبعاد.
** 01 استعراض التطور السريع لـ 2D AIGC **
يمكن تلخيص تطوير 2D AIGC بإيجاز في المراحل الثلاث التالية من التطوير:
** المرحلة 1: التحرير الذكي للصور **
في وقت مبكر من عام 2014 ، مع إدخال شبكة المواجهة التوليدية (GAN ، أعمال المتابعة النموذجية StyleGAN) والتشفير التلقائي المتغير (VAE ، أعمال المتابعة النموذجية VQVAE ، alignDRAW) ، بدأ استخدام نماذج الذكاء الاصطناعي على نطاق واسع في الجيل الذكي لـ صور ثنائية الأبعاد وتحريرها. تم استخدام نماذج الذكاء الاصطناعي المبكرة بشكل أساسي لتعلم بعض توزيعات الصور البسيطة نسبيًا أو إجراء بعض عمليات تحرير الصور.وتشمل التطبيقات الشائعة: إنشاء الوجه ، ونقل نمط الصورة ، والدقة الفائقة للصورة ، وإكمال الصورة ، وتحرير الصور الذي يمكن التحكم فيه.
لكن شبكات إنشاء / تحرير الصور المبكرة لها تفاعل محدود للغاية متعدد الوسائط مع النص. بالإضافة إلى ذلك ، عادة ما يكون تدريب شبكات GAN صعبًا ، وغالبًا ما تواجه مشكلات مثل انهيار الوضع وعدم الاستقرار.عادةً ما تكون البيانات التي تم إنشاؤها ضعيفة في التنوع ، كما تحدد سعة النموذج أيضًا الحد الأعلى لمقياس البيانات المتاح ؛ غالبًا ما يواجه VAE الصورة التي تم إنشاؤها ضبابية وغيرها من القضايا.
** المرحلة الثانية: قفزة نموذج الرسم البياني لفنسنت **
مع اختراق تقنية توليد الانتشار (الانتشار) ، وظهور وتطوير مجموعات بيانات متعددة الوسائط واسعة النطاق (مثل مجموعة بيانات لايون) ونماذج تمثيل متعددة الوسائط (مثل نموذج CLIP الصادر عن OpenAI) ، فإن المجال سيكون إنشاء الصور ثنائية الأبعاد في عام 2021. وقد تم إحراز تقدم كبير. بدأ نموذج إنشاء الصور في التفاعل بعمق مع النص ، وظهر نموذج الرسم البياني واسع النطاق في فينسنت لأول مرة بشكل مذهل.
عندما تطلق OpenAI DALL-E في أوائل عام 2021 ، ستبدأ تقنية AIGC حقًا في إظهار إمكانات تجارية كبيرة. يمكن لـ DALL-E إنشاء صور واقعية ومعقدة من إشارات نصية عشوائية بمعدل نجاح محسّن بشكل كبير. في غضون عام ، تبع عدد كبير من نماذج الرسم البياني فينسنت بسرعة ، بما في ذلك DALL-E 2 (تمت ترقيته في أبريل 2022) و Imagen (تم إصداره بواسطة Google في مايو 2022). على الرغم من أن هذه التقنيات لم تكن فعالة بعد في مساعدة المبدعين الفنيين على إنتاج محتوى يمكن وضعه مباشرة في الإنتاج ، إلا أنها جذبت انتباه الجمهور وحفزت القدرة الإبداعية والإنتاجية للفنانين والمصممين واستوديوهات الألعاب.
** المرحلة الثالثة: من الرائع إلى المنتج **
مع تحسين التفاصيل الفنية وتكرار التحسين الهندسي ، تطورت 2D AIGC بسرعة. بحلول النصف الثاني من عام 2022 ، أصبحت نماذج مثل Midjourney و Stable Diffusion من أدوات AIGC الشائعة. مدفوعة بمجموعات بيانات التدريب واسعة النطاق ، فإن أداء تقنيات AIGC في تطبيقات العالم الحقيقي قد أفاد المستخدمين الأوائل في صناعات الإعلام والإعلان والألعاب. بالإضافة إلى ذلك ، فإن ظهور وتطوير تقنيات الضبط الدقيق للنماذج الكبيرة (مثل ControlNet و LoRA) يمكن الأشخاص أيضًا من "تخصيص" تعديل النماذج الكبيرة للذكاء الاصطناعي وتوسيعها وفقًا لاحتياجاتهم الفعلية وكمية صغيرة من بيانات التدريب ، وذلك من أجل تتكيف بشكل أفضل مع تطبيقات محددة مختلفة (مثل التصميم ثنائي الأبعاد ، وإنشاء الشعار ، وإنشاء رمز الاستجابة السريعة ، وما إلى ذلك).
يستغرق التفكير والنمذجة باستخدام أدوات AIGC الآن ساعات أو أقل في كثير من الحالات ، بدلاً من الأيام أو الأسابيع التي كانت تستغرقها. في حين أن معظم مصممي الجرافيك المحترفين لا يزالون يعدلون أو يعيدون إنشاء الرسومات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، فمن الشائع بشكل متزايد أن تستخدم المدونات الشخصية أو الإعلانات الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي مباشرةً.
بالإضافة إلى تحويل النص إلى صورة ، تستمر AIGC ثنائية الأبعاد في إجراء المزيد من التطورات الحديثة. على سبيل المثال ، تقوم Midjourney وشركات ناشئة أخرى مثل Runway و Phenaki بتطوير إمكانات تحويل النص إلى فيديو. بالإضافة إلى ذلك ، اقترح Zero-1-to-3 طريقة لإنشاء صور مقابلة من زوايا مشاهدة مختلفة من صورة ثنائية الأبعاد لكائن.
نظرًا للطلب المتزايد على البيانات ثلاثية الأبعاد في صناعات الألعاب والروبوتات ، فإن الأبحاث المتطورة الحالية حول AIGC تتحول تدريجياً إلى توليد البيانات ثلاثية الأبعاد. نتوقع نمط تطوير مماثل لـ 3D AIGC.
** لحظة "DALL-E" ثلاثية الأبعاد لـ AIGC **
تخبرنا الاختراقات التكنولوجية الحديثة في مجال 3D أن لحظة "DALL-E" لـ 3D AIGC قادمة!
من DreamFields في نهاية عام 2021 إلى DreamFusion و Magic3D في النصف الثاني من عام 2022 ، ثم ProlificDreamer في مايو من هذا العام ، بفضل تطوير المجالات متعددة الوسائط ونماذج الرسوم البيانية في Vincent ، تم تحقيق العديد من الاختراقات في النموذج الأكاديمي ثلاثي الأبعاد لـ ونشينغ. عدة طرق قادرة على إنشاء نماذج ثلاثية الأبعاد عالية الجودة من إدخال النص.
ومع ذلك ، تحتاج معظم هذه الاستكشافات المبكرة إلى تحسين التمثيل ثلاثي الأبعاد من البداية عند إنشاء كل نموذج ثلاثي الأبعاد ، بحيث تلبي المنظورات ثنائية الأبعاد المقابلة للتمثيل ثلاثي الأبعاد توقعات المدخلات والنماذج السابقة. نظرًا لأن مثل هذه التحسينات تتطلب عادةً عشرات الآلاف من التكرارات ، فإنها غالبًا ما تستغرق وقتًا طويلاً. على سبيل المثال ، يمكن أن يستغرق إنشاء نموذج شبكة ثلاثية الأبعاد واحد ما يصل إلى 40 دقيقة في Magic3D وساعات في ProlificDreamer. بالإضافة إلى ذلك ، فإن أحد التحديات الكبرى للجيل ثلاثي الأبعاد هو أن النموذج ثلاثي الأبعاد يجب أن يكون متسقًا في شكل الكائن من زوايا مختلفة. غالبًا ما تواجه طرق AIGC ثلاثية الأبعاد الحالية مشكلة Janus ، أي أن الكائنات ثلاثية الأبعاد التي تم إنشاؤها بواسطة AI لها رؤوس متعددة أو وجوه متعددة.
ولكن من ناحية أخرى ، تحاول بعض الفرق اختراق نموذج الجيل القائم على التحسين ، وإنشاء نماذج ثلاثية الأبعاد من خلال مسار تقني واحد للتنبؤ الأمامي ، مما يحسن بشكل كبير سرعة ودقة الجيل ثلاثي الأبعاد. تتضمن هذه الطرق Point-E و Shap-E (تم إصدارهما بواسطة OpenAI في 2022 و 2023 ، على التوالي) و One-2–3–45 (تم إصداره بواسطة جامعة كاليفورنيا في سان دييغو في عام 2023). وتجدر الإشارة بشكل خاص إلى One-2–3–45 ، الذي تم إصداره في الشهر الماضي ، وهو قادر على إنشاء شبكة ثلاثية الأبعاد عالية الجودة ومتسقة من صورة ثنائية الأبعاد في 45 ثانية فقط!
هذه الاختراقات التكنولوجية الأخيرة في مجال 3D AIGC لا تحسن بشكل كبير من سرعة التوليد والجودة فحسب ، بل تجعل مدخلات المستخدم أكثر مرونة أيضًا. يمكن للمستخدمين إما الإدخال من خلال المطالبات النصية ، أو إنشاء النموذج ثلاثي الأبعاد المطلوب من خلال صورة ثنائية الأبعاد بمزيد من المعلومات. هذا يوسع بشكل كبير من إمكانيات 3D AIGC من حيث التطبيقات التجارية.
** الذكاء الاصطناعي يُحدث ثورة في عملية الإنتاج ثلاثية الأبعاد **
أولاً ، دعنا نفهم سير العمل الذي يحتاج المصممون ثلاثي الأبعاد التقليديون إلى اتباعه لإنشاء نماذج ثلاثية الأبعاد:
اسكتشات المفاهيم: يقوم مصممو فن المفاهيم بالعصف الذهني وتصور النماذج بالأحجام الطبيعية المطلوبة بناءً على مدخلات العميل والمراجع المرئية.
النماذج الأولية ثلاثية الأبعاد: يستخدم مصممو النماذج برامج احترافية لإنشاء الشكل الأساسي للنموذج والتكرار بناءً على ملاحظات العملاء.
تحسين النموذج: أضف التفاصيل واللون والملمس وخصائص الرسوم المتحركة (مثل التزوير والإضاءة وما إلى ذلك) إلى النموذج ثلاثي الأبعاد الخام.
إنهاء النموذج: يستخدم المصممون برنامج تحرير الصور لتحسين العرض النهائي ، أو ضبط الألوان ، أو إضافة تأثيرات ، أو إجراء توليف العناصر.
تستغرق هذه العملية عادةً بضعة أسابيع ، وربما تستغرق وقتًا أطول إذا كانت الرسوم المتحركة متضمنة. ومع ذلك ، يمكن جعل كل خطوة من هذه الخطوات أسرع بمساعدة الذكاء الاصطناعي.
يُسهل مولد الصور متعدد العروض القوي (على سبيل المثال ، Zero-1 – to – 3 استنادًا إلى Stable Diffusion و Midjourney) العصف الذهني الإبداعي ويولد رسومات صورية متعددة العروض.
يمكن لتقنيات Text-to-3D أو image-to-3D (على سبيل المثال ، One-2–3–45 أو Shap-E) إنشاء عدة نماذج أولية ثلاثية الأبعاد في دقائق ، مما يوفر للمصممين نطاقًا واسعًا من الخيارات.
باستخدام تحسين النموذج ثلاثي الأبعاد (على سبيل المثال ، Magic 3D أو ProlificDreamer) ، يمكن تحسين النماذج الأولية المحددة تلقائيًا في غضون ساعات.
بمجرد أن يصبح النموذج المكرر جاهزًا ، يمكن للمصمم ثلاثي الأبعاد تصميم وإكمال النموذج عالي الدقة.
** هل ستحل تقنية 3D AIGC محل البشر؟ **
استنتاجنا هو أنه ليس بعد. لا يزال الأشخاص رابطًا لا غنى عنه في الرابط ثلاثي الأبعاد AIGC.
على الرغم من أن تقنية إنشاء النماذج ثلاثية الأبعاد المذكورة أعلاه يمكن أن يكون لها العديد من التطبيقات في مجال الروبوتات والقيادة الذاتية والألعاب ثلاثية الأبعاد ، إلا أن عملية الإنتاج الحالية لا تزال غير قادرة على تلبية مجموعة واسعة من التطبيقات.
تحقيقًا لهذه الغاية ، أجرى Silicon Rabbit Jun مقابلة مع ** البروفيسور Su Hao ** من جامعة كاليفورنيا ، سان دييغو. وهو خبير رائد في مجالات التعلم العميق ثلاثي الأبعاد والذكاء الاصطناعي المجسد. أحد مؤلفي –3–45 نموذج. يعتقد البروفيسور Su Hao أن عنق الزجاجة الرئيسي لنموذج الجيل ثلاثي الأبعاد الحالي هو عدم وجود عدد كبير من مجموعات البيانات ثلاثية الأبعاد عالية الجودة. تحتوي مجموعات البيانات ثلاثية الأبعاد المستخدمة بشكل شائع حاليًا مثل ShapeNet (حوالي 52K شبكة ثلاثية الأبعاد) أو Objaverse (حوالي 800K نماذج ثلاثية الأبعاد) على نماذج تحتاج إلى تحسين من حيث الكمية وجودة التفاصيل. مقارنة بمجموعات البيانات الكبيرة في المجال ثنائي الأبعاد (على سبيل المثال ، LAION-5B) ، لا يزال حجم بياناتها بعيدًا عن أن يكون كافياً لتدريب النماذج ثلاثية الأبعاد الكبيرة.
درس البروفيسور سو هاو ذات مرة تحت إشراف البروفيسور ليونيداس غويباس ، وهو رائد في الحوسبة الهندسية وعضو في الأكاديمية الأمريكية للعلوم ، وشارك في مشروع ImageNet بقيادة البروفيسور فيفي لي كمساهم مبكر. وشدد البروفيسور سو هاو ، بإلهام منهم ، على الدور الرئيسي لمجموعات البيانات ثلاثية الأبعاد الشاملة في تطوير التكنولوجيا ، ووضع الأساس لظهور وازدهار مجال التعلم العميق ثلاثي الأبعاد.
بالإضافة إلى ذلك ، تعد النماذج ثلاثية الأبعاد أكثر تعقيدًا بكثير من الصور ثنائية الأبعاد ، على سبيل المثال:
هيكل الجزء: تتطلب الألعاب أو التطبيقات الرقمية المزدوجة أجزاء منظمة من كائنات ثلاثية الأبعاد (على سبيل المثال ، PartNet) ، بدلاً من شبكة ثلاثية الأبعاد مفردة ؛
المفاصل والارتباطات: الخصائص الرئيسية للتفاعل مع الكائنات ثلاثية الأبعاد ؛
الملمس والمواد: مثل الانعكاس ، ومعامل الاحتكاك السطحي ، وتوزيع الكثافة ، ومعامل يونغ وغيرها من الخصائص الرئيسية التي تدعم التفاعل ؛
التشغيل والمعالجة: السماح للمصممين بالتفاعل والتعامل مع النماذج ثلاثية الأبعاد بشكل أكثر فعالية.
والنقاط المذكورة أعلاه هي المكان الذي يمكن أن تستمر فيه الخبرة البشرية في لعب دور مهم.
يعتقد البروفيسور سو هاو أنه في المستقبل ، يجب أن يكون لتوليد البيانات ثلاثية الأبعاد المدفوع بالذكاء الاصطناعي الخصائص التالية:
دعم إنشاء نماذج ثلاثية الأبعاد تدعم التطبيقات التفاعلية. يتضمن هذا التفاعل كلاً من التفاعل المادي بين الكائنات (مثل الاصطدامات) والتفاعل بين الأشخاص والأشياء (طرق التفاعل المادية وغير المادية) ، مما يجعل البيانات ثلاثية الأبعاد في اللعبة ، metaverse ، المحاكاة الفيزيائية وغيرها من السيناريوهات يمكن استخدامها على نطاق واسع ؛
دعم إنشاء المحتوى ثلاثي الأبعاد بمساعدة الذكاء الاصطناعي ، مما يجعل النمذجة أكثر كفاءة ؛
دعم عملية إنشاء الإنسان في الحلقة ، واستخدام المواهب الفنية البشرية لتحسين جودة البيانات التي تم إنشاؤها ، وبالتالي زيادة تحسين أداء النمذجة وتشكيل تأثير دولاب الموازنة للبيانات المغلقة.
على غرار التطور المذهل لتقنيات مثل DALL-E و ChatGPT في الأشهر الـ 18 الماضية ، نعتقد اعتقادًا راسخًا أن ما سيحدث في مجال 3D AIGC ، من المرجح جدًا أن يتجاوز ابتكاره وتطبيقه توقعاتنا ، فإن Silicon Rabbit سوف الاستمرار في تعميق الاستكشاف والإخراج.