تصميم نموذج واسع النطاق متعدد الوسائط: أكمل فريق جامعة Tsinghua ما يقرب من 100 مليون يوان من التمويل المستدير من الملاك ، بقيادة Ant

المؤلف: الورقة

المراسل شاو ون

تأسست Shengshu Technology في مارس 2023. الأعضاء الأساسيون هم أساسًا من كلية الذكاء الاصطناعي بجامعة Tsinghua ، وهي واحدة من أوائل الفرق في الصين لنشر نماذج عامة متعددة الوسائط على نطاق واسع. وقادت مجموعة آنت هذه الجولة من التمويل ، تليها بايدو فينتشرز و Zhuoyuan Capital ، والتقييم الحالي هو 100 مليون دولار أمريكي.

هناك اتجاهات جديدة في تطوير نماذج محلية واسعة النطاق متعددة الوسائط. في 19 يونيو ، أكمل فريق جديد بقيادة تشو جون ، أستاذ علوم الكمبيوتر في جامعة تسينغهوا ونائب رئيس معهد الذكاء الاصطناعي ، جولة تمويلية بقيمة 100 مليون يوان تقريبًا.

Pengpai Technology (علمت أن هذه الشركة الناشئة النموذجية واسعة النطاق متعددة الوسائط المسماة Beijing Shengshu Technology Co.، Ltd. (المشار إليها فيما يلي باسم "Shengshu Technology") أعلنت عن الانتهاء من جولة تمويل تقارب 100 مليون يوان. قاد الاستثمار مجموعة Ant. تليها Baidu Ventures و Zhuoyuan Capital ، التقييم الحالي هو 100 مليون دولار أمريكي. ستستخدم هذه الجولة من التمويل بشكل أساسي لبناء فريق البحث والتطوير الأساسي وتسريع تطوير وحدات كبيرة متعددة الوسائط - نماذج النطاق ومنتجات التطبيق.

يشير النموذج الكبير متعدد الوسائط إلى نموذج يجمع المعلومات متعددة الوسائط مثل النص والصورة والفيديو والصوت للتدريب. في السابق ، قال المؤسس المشارك لـ OpenAI Ilya Sutskever (Ilya Sutskever) ، "الهدف طويل المدى للذكاء الاصطناعي هو بناء شبكة عصبية متعددة الوسائط ، أي أن الذكاء الاصطناعي يمكنه تعلم المفاهيم بين الطرائق المختلفة ، من أجل فهم العالم بشكل أفضل" .​​​​

توليد الصور بدعم من نموذج Shengshu.

تأسست Shengshu Technology في مارس 2023. وقد تم احتضانها بالاشتراك مع شركة Beijing Ruilai Smart Technology Co.، Ltd. و Ant Group و Baidu Venture Capital. وقد عمل تانغ جيايو ، نائب الرئيس السابق لشركة Ruilai Smart وتخرج من قسم الكمبيوتر بجامعة Tsinghua ، كرئيس تنفيذي. يتم استخدامه لإنشاء نموذج كبير للأغراض العامة متعدد الوسائط يمكن التحكم فيه. يُذكر أن هذه هي المرة الأولى التي تستثمر فيها Ant Group في شركة نموذجية كبيرة الحجم بعد شعبية ChatGPT ، وهي أيضًا مشروع Zhu Jun الثاني بعد Ruilai Wisdom. Ruilai Wisdom هي مزود لحلول وحلول الذكاء الاصطناعي.

يأتي الأعضاء الأساسيون في فريق Shengshu Technology من معهد الذكاء الاصطناعي بجامعة Tsinghua ، وبشكل أساسي مجموعة البحث التي يقودها Zhu Jun. تلتزم مجموعة البحث بالنظرية الأساسية وأبحاث الخوارزمية الفعالة لتعلم الآلة Bayesian ، وهي واحدة من أوائل الفرق في العالم لدراسة النماذج التوليدية الاحتمالية العميقة. في يناير 2022 ، تم تطبيق إطار التفكير غير التدريبي Analytic-DPM الذي اقترحه الفريق على استراتيجية معالجة نموذج DALL E 2 بواسطة OpenAI. بعد ذلك ، تم اقتراح خوارزمية أخذ العينات DPM-Solver ، والتي تعد الآن أسرع توليد للصور في العالم خوارزمية بواسطة Stable Diffusion وأعداد كبيرة أخرى تم تبنيها بواسطة مشاريع مفتوحة المصدر.

قم بتعديل عناصر الشاشة في الفيديو (موجه: بجعة كريستال سواروفسكي تسبح في النهر) ، والفيديو الأصلي في أقصى اليسار ، وتأثير التكنولوجيا الرقمية في المنتصف ، وتأثير Runway في أقصى اليمين.

وفقًا للتقارير ، تعد Shengshu Technology واحدة من أوائل الفرق في الصين التي قامت بوضع نماذج متعددة الأغراض واسعة النطاق متعددة الوسائط. أكمل مهام التوليد المختلفة مثل إنشاء النص المستند إلى الصورة ، وإنشاء مشترك بين الصور والنصوص ، وإعادة كتابة نص الصورة.

تم إطلاق نموذج Transformer بواسطة فريق في Google في عام 2017. وهو نموذج تعلم عميق يمكنه تعيين أوزان مختلفة وفقًا لأهمية كل جزء من بيانات الإدخال. يستخدم هذا النموذج بشكل أساسي في مجالات معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر (CV). حاليًا ، يتم تطوير النماذج الكبيرة الرئيسية مثل GPT بناءً على Transformer.

"بشكل عام ، الفكرة الحالية لعمل نماذج توليد صور واسعة النطاق في الصناعة هي نفسها ، وكلها تستند إلى نموذج الانتشار. يكمن ابتكارنا في تعديل الشبكة الرئيسية الأساسية. إنه قال تانغ جيايو في مقابلة مع وسائل الإعلام مؤخرًا إن أول من استخدم المحولات في تقنية نموذج الانتشار لتحقيق موقف متعدد الأوضاع.

يعتقد Tang Jiayu أن النماذج والمنتجات الموجودة في السوق في هذه المرحلة لا تحل سوى مشكلة التوليد في المرحلة الأولية ، ولكن النتائج المتولدة لا تزال بها قدر كبير من عدم اليقين وعدم القدرة على التحكم. لا تزال هناك أوجه قصور كبيرة ، على سبيل المثال ، من الصعب الدقة التحكم في موضع وتفاصيل العناصر في الصورة التي تم إنشاؤها ، ولا يزال النموذج ثلاثي الأبعاد الذي تم إنشاؤه عند مستوى منخفض نسبيًا من حيث دقة السطح ودقة اللون والضوء والظل.

إنشاء محتوى ثلاثي الأبعاد (تلميح: صورة DSLR لطائر أزرق يقف على سلة كبيرة من حلوى الماكرون بألوان قوس قزح).

قدمت Shengshu Technology إلى Pengpai Technology والتي من حيث إنشاء المحتوى ثلاثي الأبعاد ، فقد طورت أول تقنية في الصناعة لإنشاء محتوى ثلاثي الأبعاد تلقائيًا استنادًا إلى ثلاث طرق عرض ، وتقنية محتوى Wensheng ثلاثية الأبعاد التي لا تتطلب أي بيانات تدريب ثلاثية الأبعاد ، ويمكن أن يكون التأثير مفصلة بدقة ، يمكن أن تكون قريبة من التطبيقات ذات المستوى الصناعي ، "لقد تجاوز النموذج الكبير المدرب أحدث إصدار من النموذج الأساسي لـ Stable Diffusion من حيث توليد الصور ، ومن المتوقع أن يلحق بأحدث إصدار من Midjourney خلال هذا العام . "

يعد Stable Diffusion نموذجًا لإنشاء تحويل النص إلى صورة تم تطويره بواسطة الشركات الناشئة StabilityAI و CompVis و Runway ، وقد تم إصداره في عام 2022 وهو الآن مفتوح المصدر. Midjourney هي أداة لإنشاء تحويل النص إلى صورة تم إطلاقها في مارس 2022. وقد مرت بتكرارات متعددة ودخلت المرحلة التجريبية العامة ، وأثارت آثارها الواقعية مناقشات ساخنة على الإنترنت الصيني. يعد كل من Stable Diffusion و Midjourney من أدوات الذكاء الاصطناعي الرائدة في الصناعة وذات التصنيف العالي في جميع أنحاء العالم.

شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت