تم اختبار رسم الذكاء الاصطناعي لعلي داخليًا ، مما تسبب في صدمة لبعض المصانع الكبرى

المؤلف: Du Wei، Zenan

** لطرح المؤتمر العالمي للذكاء الاصطناعي WAIC لهذا العام ، من هو بطل الرواية؟ إن نموذج الذكاء الاصطناعي الضخم يستحق ذلك. **

واستمر المؤتمر لمدة ثلاثة أيام ، وكشفت شركات ومؤسسات مختلفة تباعا عن أكثر من 30 نموذجا كبيرا.

النماذج اللغوية لا غنى عنها في عيد النماذج الكبيرة هذه ، وبالطبع هناك أيضًا نماذج رسم كبيرة الحجم غالبًا ما تصيب الناس بصدمة بصرية. لا ، في مجال الرسم بالذكاء الاصطناعي ، دخل لاعب محلي آخر الميدان.

بعد ثلاثة أشهر من إصدار نموذج اللغة الكبير Tongyi Qianwen ، ظهر أيضًا نموذج كبير لإنشاء لوحة AI الخاصة بـ Ali ، وهو يعتمد على النموذج التوليدي المركب الذي تم تطويره ذاتيًا.

في مؤتمر WAIC الذي عقد في 7 يوليو ، كشفت عائلة Alibaba Cloud Tongyi النموذجية واسعة النطاق النقاب عن أحدث أعضائها "Tongyi Wanxiang".

* WAIC * * في منتدى موضوع "MaaS: نموذج جديد لتطوير الذكاء الاصطناعي المرتكز على النموذج" على Alibaba Cloud ، ظهر Tongyi Wanxiang. *

تأثير صورة إنشاء النص الخاص به هو مثل هذا ، وسرعة التوليد سريعة جدًا.

يمكن لـ Tongyi Wanxiang أيضًا إنشاء صورة جديدة لنمط محدد آخر للصورة الأصلية.

هناك أيضًا لعبة دمى متداخلة ، والتي تولد بعض الصور المتشابهة لصورة أصلية.

قال علي إن Tongyi Wanxiang لديه القدرة على إنشاء الرسوم البيانية والرسوم البيانية ، والتي يمكن أن تساعد البشر في إنشاء الصور وتقليل عتبة تصميم الصور بشكل كبير. في المستقبل ، يمكن أيضًا تطبيقه على سيناريوهات التطبيق مثل التصميم الفني والألعاب والإبداع الثقافي.

حاليًا ، فتح النموذج اختبار الدعوة الاتجاهية.

قبل أن تصبح ChatGPT شائعة ، كان الموضوع الأكثر شيوعًا في مجال الذكاء الاصطناعي هو الرسم بالذكاء الاصطناعي. أخذ نموذج الانتشار الذكاء الاصطناعي التوليدي خطوة كبيرة إلى الأمام ، حيث كان هناك عدد كبير من نماذج الذكاء الاصطناعي التي تدخل النص وتنتج صورًا بأنماط مختلفة لبعض الوقت. بعد ذلك ، ظهرت المزيد من الطرق لإنشاء الصور من الصور وتحويلها إلى أنماط محددة ، مما جعل الناس ينبهرون ويتعجبون من سحر الذكاء الاصطناعي التوليدي.

في المرحلة الكبيرة من WAIC ، أطلق علي هذه الأداة الذكية التي يمكنها إنشاء رسوم بيانية ورسوم بيانية ، ويمكن ملاحظة أنها واثقة جدًا من تأثير التوليد.

بعد الحصول على مؤهل الخبرة ، يجب على قلب الجهاز بالطبع تجربته أولاً.

** القياس الفعلي لـ Tongyi Wanxiang: طريقة لعب متنوعة ، لقطة واحدة هي تحفة فنية **

هل أحدث هذا النموذج الجديد لعائلة Tongyi تغييرات في مجال رسم الذكاء الاصطناعي؟ نتحدث مع النتائج.

حاليًا ، أطلقت Tongyi Wanxiang الوظائف الثلاث ** إنشاء صورة نصية وإنشاء صورة مماثلة ونقل نمط الصورة **.

لنبدأ بإنشاء نص إلى صورة قياسي. في Wenshengtu ، يمكنك الاختيار من بين أنماط مختلفة مثل الألوان المائية ، والرسم الزيتي ، والرسم الصيني ، والتوضيح المسطح ، والثنائي الأبعاد ، والرسم ، والرسوم المتحركة ثلاثية الأبعاد ، إلخ. بعد إدخال وصف نصي وتحديد نمط ، يمكن للذكاء الاصطناعي إنشاء صورة إبداعية تلقائيًا. في الوقت نفسه ، من أجل راحة الاستخدام ، تشتمل نسبة الصورة الناتجة على ثلاثة خيارات: 1: 1 و 16: 9 و 9:16.

لنبدأ بشيء أقل تعقيدًا. نختار مجموعة من الكلمات من "أفكار تيانجينشا - الخريف" لما تشى يوان ، أحد أساتذة يوانكو الأربعة ، لوصف "الجسور الصغيرة والمياه المتدفقة والمنازل" ، واختر "الرسم الصيني" للأسلوب.

نتيجة لذلك ، أظهر لنا Tongyi Wanxiang بالكامل لوحات مليئة بالسحر القديم ، غنية بالتفاصيل ، وأضاف بعض العناصر التي لم تكن في الوصف ، مثل الجبال البعيدة والبط الذي يسبح في الماء.

قد نغير نمطين مرة أخرى ، هذه المرة نختار "رسم" و "رسم زيتي". يمكن لـ Tongyi Wanxiang التبديل بحرية في أنماط مختلفة ، كما أن الرسومات واللوحات الزيتية التي تم إنشاؤها مذهلة بنفس القدر. ليس من قبيل المبالغة القول بأن هذه الصور ذات مستوى يمكن استخدامها مباشرة.

لنفترض أن مجموعة نصية أخرى تصف "قطة في بذلة فضائية ، وفضاء ، وسفر ، وسماء مرصعة بالنجوم" ، هذه المرة اختر "ثنائي الأبعاد" و "رسوم متحركة ثلاثية الأبعاد" للنمط. التأثير واضح في لمحة ، وخاصة مجموعة نمط الرسوم المتحركة ثلاثية الأبعاد ، فالقطط لطيفة للغاية.

* أعلاه: ثنائي الأبعاد ؛ أسفل: رسوم متحركة ثلاثية الأبعاد *

هنا أريد فجأة مقارنة Tongyi Wanxiang بالانتشار المستقر الشهير. يتم ترجمة نفس وصف النص إلى اللغة الإنجليزية "قطة في بدلة فضاء ، وفضاء ، وسفر ، وسماء مرصعة بالنجوم" ، ثم تتم إضافة "نمط الكرتون ثلاثي الأبعاد" ، وتكون الصورة التي تم إنشاؤها على النحو التالي.

بشكل غير متوقع ، فازت Tongyi Wanxiang بهذه الموجة ، فالقطط التي تم إنشاؤها بواسطة Stable Diffusion كانت إما مجردة للغاية أو واقعية للغاية ، ولم تظهر أسلوب رسوم متحركة ثلاثي الأبعاد.

نظرًا لأن الوصف النصي البسيط ليس صعبًا على Tongyi Wanxiang ، فلنجعل الأمر صعبًا.

هذه المرة ، هناك مقطع أطول من "فتاة يابانية ذات شعر بني أملس ، بشرة فاتحة ، ترتدي فستانًا من الدانتيل وقوسًا ، وتحمل حقيبة يد صغيرة ، وتبتسم" ، والأسلوب "ثنائي الأبعاد". أود أن أسأل الأصدقاء الذين يحبون البعد الثاني ، هل هذه الصور التي تم إنشاؤها تتطابق مع الفتيات اليابانيات في ذهنك؟

مجموعة أخرى من الأوصاف بأسلوب سحري هي "السريالية ، والملمس المتميز ، ودقة 4K ، و cyberpunk ، وسفينة حربية ، ومهيب ، ودخان ، وعمالقة المعادن ، وأسلحة الليزر ، وعارض الأوكتان" ، والأسلوب هو "الرسم الزيتي". بالنظر إلى الصور أدناه ، هناك شعور بالتوتر في معركة يوم القيامة.

نضع نفس الوصف مرة أخرى في Stable Diffusion. من حيث ثراء التفاصيل ، يعد Stable Diffusion أفضل ، لكن نمط صورته يبدو رماديًا ولا يمنح الناس إحساسًا قويًا بتأثير اللون. وهو أسلوب أكثر واقعية ، يختلف قليلاً عن السريالية.

يبدو أنه على الأقل على مسار Wen Shengtu ، يبدو أن Tongyi Wanxiang قد استوعب تمامًا. لا يسع الناس إلا أن تتنهد ، فقد تطورت قدرة الذكاء الاصطناعي التوليدي في مجال الرسم.

** بعد ذلك ، سنتحدث عن وظيفة توليد صور التشابه في Tongyi Wanxiang **. يحتاج المستخدمون فقط إلى تقديم صورة مرجعية للحصول على لوحات AI ذات المحتوى والأسلوب المتشابهين. وتجدر الإشارة هنا إلى أن حجم الصورة التي تم تحميلها يجب أن يكون أقل من 10 ميجا ، وأن التنسيق يدعم JPG ، JPEG ، PNG ، BMP ، إلخ.

دعنا أولاً نضع قطعة من Musk ، وهو زائر دائم لعالم الرسم بالذكاء الاصطناعي ، لنرى كيف يبدو "Fenke" لماسك في عيون Tongyi Wanxiang. مقارنة بجسد ماسك الحقيقي ، فإن الصورة التي تم إنشاؤها أقدم ، لكن الابتسامة مبهجة بنفس القدر.

صورة أخرى للمناظر الطبيعية ، التأثير الناتج جيد جدًا. يتدفق التيار ، ويتناثر الماء أيضًا بأوراق أكثر تساقطًا ، وهذا ليس أدنى من الصورة الأصلية.

في التجربة ، وجد قلب الآلة أيضًا أن الصور التي تم إنشاؤها بواسطة المعنى العام لنص Wanxiang يمكن أن تولد صورًا مماثلة مباشرةً. هنا نختار أحد أنماط الرسوم المتحركة ثلاثية الأبعاد المذكورة أعلاه "القطط في بدلات الفضاء" كصورة أصلية. وبمجرد ظهور النتائج ، تصبح القطط التي تم إنشاؤها أكثر جمالًا وتكون عناصر الخلفية أكثر وفرة.

** انظر أخيرًا إلى وظيفة ترحيل النمط **. ما عليك سوى تحميل الصورة الأصلية التي تريد تغيير النمط والرسم التخطيطي للنمط المستهدف ، ويمكنك معالجة الصورة الأصلية بسرعة في الصورة الإبداعية للنمط المستهدف. كما هو الحال مع إنشاء صورة مماثلة ، يجب ألا يتجاوز حجم الصورة الأصلية وصورة النمط 10 ميجا ، ويكون التنسيق هو نفسه.

نختار أولاً صورة أصلية واقعية وصورة نمط انطباعي. ونتيجة لذلك ، غيرت الصور الأصلية الواقعية أسلوبها تمامًا وأصبحت لوحات انطباعية.

ثم جرب صورة أصلية ثلاثية الأبعاد للكرتون وصورة بنمط رسم. يتضح من النتائج أن التبديل بين النمطين أمر سهل.

أخيرًا ، اختر صورة أصلية بأسلوب الرسم الصيني وصورة بأسلوب الألوان المائية. النتائج المتولدة جيدة بنفس القدر.

بعد بعض الخبرة ، سواء كان مخطط Wensheng أو مخطط Tusheng ، قدم لنا Tongyi Wanxiang الكثير من المفاجآت من حيث الارتباط الدلالي وتكامل الصورة وثراء التفاصيل. لا سيما وظيفة ترحيل النمط ، يكون التبديل بين الأنماط المختلفة سلسًا للغاية ، والصور التي تم إنشاؤها ليس لها أي شعور تقريبًا بالربط والتلطيخ ، كما لو كانت تنتمي إلى النمط المستهدف.

بصفته عضوًا جديدًا في عائلة نماذج Tongyi واسعة النطاق التابعة لشركة Alibaba Cloud ، قال علي إن القدرات الحالية لشركة Tongyi Wanxiang هي مجرد اختبار صغير ، ولا تزال قدراتها تتطور. في المستقبل ، سيتم فتح القدرات ذات الصلة تدريجياً لعملاء الصناعة.

** نموذج Composer مطور ذاتيًا: 5 مليارات معلمة ، ستصل إلى القمة **

في السابق ، كانت النماذج الكبيرة للعديد من الشركات تنشئ أشخاصًا "متعددي الوسائط" ، مع إمكانات الرسم بالذكاء الاصطناعي. في المقابل ، ما مقدار المحتوى التقني الذي يحمله المعنى العالمي لعلي؟ يبدو أنه ليس تقليدًا بسيطًا ، لكن له قدرته الفريدة.

من المفهوم أن Tongyi Wanxiang يعتمد على Composer ، وهو نموذج توليدي مشترك تم تطويره ذاتيًا بواسطة علي ، والذي يحتوي على 5 مليارات معلمة ويتم تدريبه على مليارات من أزواج النصوص والصور. في المرحلة التي تدرس فيها الصناعة كيفية تحسين إمكانية التحكم في نماذج الطلاء بالذكاء الاصطناعي ، قدم Composer أفكاره المبتكرة.

من خلال إطار "التوليد المشترك" المستند إلى نموذج الانتشار ، يمكن لـ Composer تفكيك عناصر تصميم الصورة والجمع بينها مثل مطابقة الألوان والتخطيط والأسلوب ، مما يحقق تأثير توليد صور يمكن التحكم فيه بدرجة عالية وخالي للغاية.

والنتيجة ، كما ترى أنا وأنت ، هي أن نموذجًا واحدًا فقط يمكنه دعم مهام إنشاء الصور متعددة الفئات. شارك Zhou Jingren ، كبير مسؤولي التكنولوجيا في Alibaba Cloud ، في البحث عن Composer ، وتم تضمين النتائج ذات الصلة في ICML 2023 ، المؤتمر الدولي الأعلى لمنظمة العفو الدولية.

* العنوان الورقي:

  • عنوان جيثب:

يقوم ما يسمى بمجموعة التفكيك أولاً بتحليل الصورة إلى عناصر تصميم مختلفة ، مثل مطابقة الألوان ، والرسومات ، والتخطيط ، والأسلوب ، والدلالات ، والمواد ، إلخ. ثم يتم إعادة تجميع عناصر التصميم هذه في صور جديدة باستخدام نماذج الذكاء الاصطناعي. هنا ، تسمح عملية التفكيك والتجميع بالتعديل والتحرير المجاني للعناصر المستخدمة ، بحيث يتم تحسين إمكانية التحكم بشكل كبير.

* Teardown - عملية إنشاء الصور المدمجة. *

ليس ذلك فحسب ، يمكن لـ Composer أيضًا تحقيق مساحة إبداعية أوسع من خلال "الضغط" على إمكانات مجموعة التفكيك. بافتراض وجود 100 صورة ، كل منها مقسمة إلى 8 عناصر ، فهناك 100 إلى القوة الثامنة من مجموعات جميع العناصر. تُعرف هذه الزيادة الهائلة في الأرقام بظاهرة الانفجار الاندماجي ، ولا شك أنها تخلق مساحة جيل ضخمة لنماذج الذكاء الاصطناعي. في الوقت نفسه ، يُمنح المصممون البشريون أيضًا قدرًا كبيرًا من الحرية وقدرات التخصيص عند إنشاء صور مخصصة.

* عملية إعادة تركيب الصورة. *

** استنادًا إلى إطار عمل Composer الذي يسمح لنا Tongyi Wanxiang بتجربة وظيفتين لإنشاء الرسم البياني للتشابه ونقل النمط **. أثناء استخدام نموذج فهم الصورة لتفكيك الصورة إلى عناصر مختلفة ، أثناء استخدام نموذج الانتشار لإعادة دمج هذه العناصر في صورة جديدة ، النهج ذي الشقين ، فإن إنشاء الصورة أمر طبيعي.

من بينها ، لتوليد صور متشابهة ، الحفاظ على المحتوى الدلالي للصورة دون تغيير ، فقط تغيير التفاصيل المحلية في الصورة يمكن أن يولد صورًا مماثلة. في هذه العملية ، يمكن الحفاظ على تناسق الجسم الرئيسي للصورة الأصلية بشكل أفضل ، كما يمكن أيضًا تحسين تنوع وجودة الصورة التي تم إنشاؤها.

لنقل النمط ، من ناحية ، يتم الاحتفاظ بالشكل الأساسي للصورة الأصلية وهيكلها ، ومن ناحية أخرى ، يتم نقل النمط واللون وضربات الفرشاة والمعلومات الشخصية الأخرى لصورة نمط الهدف لتحقيق النمط أخيرًا تحويل.

** استخدام النموذج الكبير باعتباره جوهرًا لإنشاء قاعدة موحدة للذكاء الاصطناعي التوليدي **

يبدو أن التأثير غير المتوقع لـ Tongyi Wanxiang يأتي من التكنولوجيا الأساسية الخاصة بعلي.

في الواقع ، في الصين ، علي هي واحدة من الشركات الكبرى التي بدأت في استكشاف الذكاء الاصطناعي التوليدي في وقت سابق ، وبدأت في البحث والتطوير لتكنولوجيا النماذج واسعة النطاق في عام 2018. في عام 2019 ، تجاوز نموذج التدريب اللغوي الكبير StructBERT الذي اقترحه معهد دارما البحث الذي أجرته Google و Microsoft و Facebook ، ووصل إلى قمة قائمة معايير NLP الموثوقة GLUE في ذلك الوقت.

في عام 2021 ، سيطلق علي أول نموذج M6 واسع النطاق متعدد الوسائط مع عشرات المليارات من المعلمات في الصين ونموذج اللغة واسع النطاق PLUG المسمى "النسخة الصينية GPT-3". من بينها ، بعد التكرارات المتعددة ، حققت M6 مقياسًا للمعلمات يبلغ عشرة تريليونات من المستويات ، وتم دمج M6 مع احتياجات العمل في Alipay و Taobao.

في WAIC العام الماضي ، أصدر علي سلسلة نماذج Tongyi واسعة النطاق ، والتي بنت "نموذجًا أساسيًا" للصناعة لأول مرة ، محققة تمثيلًا موحدًا للنموذج ، وتمثيل المهام ، وهيكل النموذج. علاوة على ذلك ، فإن النماذج الأساسية ذات الصلة مفتوحة المصدر للمطورين في جميع أنحاء العالم.

فيما يتعلق بتنفيذ الذكاء الاصطناعي التوليدي ، فقد واجهنا العديد من التحديات: التكلفة العالية لقوة الحوسبة ، وعملية البناء المعقدة ، والتنوع المحدود. لقد أنشأت Tongyi أول قاعدة موحدة للذكاء الاصطناعي في الصناعة ، وأنشأت نظام ذكاء اصطناعي هرمي مع نماذج كبيرة وصغيرة منسقة. وهدفها هو مواجهة التحدي والسماح للذكاء الاصطناعي بالانتقال من الإدراك إلى الإدراك.

يمكن القول أن علي قد قدم بعض المساهمات الرائدة والرائدة في تطوير النماذج الصينية واسعة النطاق من حيث النماذج الضخمة للغاية ، والقدرات اللغوية والوسائط المتعددة ، والتدريب منخفض الكربون ، وخدمات المنصات ، وتطبيقات الهبوط. .

قبل Tongyi Wanxiang ، أصدر علي تباعاً "Tongyi Thousand Questions" لمعالجة اللغة الطبيعية و "Tongyi Listening" المتخصصة في إنتاجية الصوت والفيديو. حتى الآن ، تم فتح الاتجاهات الرئيسية الثلاثة للذكاء الاصطناعي. ** في مواجهة الطلب المحتمل الهائل على النماذج الكبيرة والذكاء الاصطناعي التوليدي ، تتمتع Alibaba Cloud بمزايا فريدة **.

بالإضافة إلى تراكم تكنولوجيا النماذج على نطاق واسع ، تعد إمكانات البنية التحتية السحابية القوية أمرًا بالغ الأهمية. من حيث قوة الحوسبة ، Alibaba Cloud هي المزود الأول لخدمات الحوسبة السحابية في آسيا والثالث في العالم ، ونموذجها الكبير لديه دعم قوي لنظام الحوسبة. على سبيل المثال ، تمتلك Alibaba Cloud أقوى احتياطي من قوة الحوسبة الذكية في الصين ، ويمكن لمجموعة الحوسبة الذكية في Alibaba Cloud أن تدعم مقياس GPU بحد أقصى 100،000 بطاقة.

بالإضافة إلى ذلك ، اقترح علي أولاً مفهوم "النموذج كخدمة" في الصين ، وأخذ زمام المبادرة في بناء أكبر مجتمع خدمة نموذجي للذكاء الاصطناعي في الصين ، "Magic Build" ، وأصر على المصدر المفتوح والانفتاح ، وتعزيز شمولية الذكاء الاصطناعي. في منتدى موضوع "MaaS: نموذج جديد لتطوير الذكاء الاصطناعي المرتكز على النموذج" من Alibaba Cloud ، شارك Zhou Jingren رؤيته لـ MaaS وكيفية زيادة تمكين المنتجات والشركاء.

* جينغرن زو ، كبير التكنولوجيا في Alibaba Cloud. *

في مسابقة الذكاء الاصطناعي 2.0 ، دخلت المنافسة مرحلة جديدة ، فبعد منافسة طراز 100 ، ستكون هناك أمواج كبيرة حتمًا ، وستكون Alibaba Cloud جاهزة.

شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت