النص والصورة والصوت والفيديو ... ما مدى قوة نموذج Microsoft متعدد الوسائط CoDi؟

2023-07-11 07:11:29

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

نشر فريق بحث Microsoft Azure وباحثو جامعة نورث كارولينا ورقة بعنوان "الجيل التعسفي من خلال الانتشار المركب" ، حيث قدموا نموذجًا جديدًا للجيل المتعدد الوسائط - CoDi (الانتشار المركب).

CoDi قادر على إنشاء أي مجموعة من طرق الإخراج من أي مجموعة من طرائق الإدخال ، مثل اللغة أو الصورة أو الفيديو أو الصوت. على عكس أنظمة الذكاء الاصطناعي التوليدية الحالية ، يمكن لـ CoDi إنشاء طرائق متعددة بالتوازي ، ولا تقتصر مدخلاتها على مجموعات فرعية من الأساليب مثل النص أو الصور. CoDi حر في اشتراط أي مجموعة من المدخلات وإنشاء أي مجموعة من الأساليب ، حتى لو لم تكن موجودة في بيانات التدريب.

يقدم CoDi مستوى غير مسبوق من إنشاء المحتوى من خلال المعالجة المتزامنة وإنشاء محتوى متعدد الوسائط مثل النصوص والصور والصوت والفيديو. باستخدام نماذج الانتشار والتقنيات القابلة للتركيب ، يمكن لـ CoDi إنشاء مخرجات عالية الجودة ومتنوعة من مدخلات فردية أو متعددة ، وتحويل إنشاء المحتوى ، وإمكانية الوصول ، والتعلم المخصص.

يتميز CoDi بقابليته العالية للتخصيص والمرونة ، مما يتيح جودة إنشاء نماذج مشتركة قوية تتفوق في الأداء أو تنافس أحدث طريقة للتوليف.

في الآونة الأخيرة ، أحرز CoDi تقدمًا جديدًا وأصبح متاحًا رسميًا على نظام Microsoft Azure الأساسي ، ويمكن استخدامه مجانًا لمدة 12 شهرًا.

ما مدى قوة CoDi

ظهرت CoDi كجزء من مشروع i-Code الطموح من Microsoft ، وهو مبادرة بحثية مخصصة لتطوير قدرات الذكاء الاصطناعي متعدد الوسائط. من المتوقع أن تؤدي قدرة CoDi على دمج المعلومات بسلاسة من مصادر مختلفة وتوليد مخرجات متسقة إلى إحداث ثورة في مجالات متعددة من التفاعل بين الإنسان والحاسوب.

أحد المجالات التي يمكن أن يحدث فيها CoDi التغيير هو التكنولوجيا المساعدة ، وتمكين الأشخاص ذوي الإعاقة من التفاعل مع أجهزة الكمبيوتر بشكل أكثر فعالية. من خلال إنشاء المحتوى بسلاسة عبر النص والصور والفيديو والصوت ، يمكن لـ CoDi تزويد المستخدمين بتجربة حوسبة أكثر شمولاً ويمكن الوصول إليها.

بالإضافة إلى ذلك ، لدى CoDi القدرة على إعادة اختراع أدوات التعلم المخصصة من خلال توفير بيئة تعليمية تفاعلية شاملة. يتفاعل الطلاب مع محتوى متعدد الوسائط يدمج المعلومات بسلاسة من مجموعة متنوعة من المصادر ، ويعزز فهمهم وتفاعلهم مع الموضوع.

سيحدث CoDi أيضًا ثورة في إنشاء المحتوى. النموذج قادر على إنتاج مخرجات عالية الجودة عبر طرائق متعددة ، والتي يمكن أن تبسط عملية إنشاء المحتوى وتقليل العبء على المبدعين. سواء كان إنشاء منشورات تفاعلية على وسائل التواصل الاجتماعي ، أو صياغة عروض تقديمية متعددة الوسائط تفاعلية ، أو إنشاء تجارب سرد قصص جذابة ، فإن قدرات CoDi لديها القدرة على إعادة تشكيل مشهد إنشاء المحتوى.

لمعالجة قيود نماذج الذكاء الاصطناعي التقليدية أحادية الوسائط ، يوفر CoDi حلاً للعملية المملة والبطيئة للجمع بين النماذج التوليدية الخاصة بالطريقة.

يستخدم هذا النموذج الجديد إستراتيجية توليد فريدة قابلة للإنشاء تربط المحاذاة أثناء الانتشار وتسهل التوليد المتزامن للطرائق المتشابكة ، مثل الفيديو والصوت المتوافقان مع الوقت.

عملية تدريب نموذج CoDi مميزة تمامًا أيضًا. يتضمن إسقاط طرائق الإدخال مثل الصورة والفيديو والصوت واللغة في مساحة دلالية مشتركة. هذا يسمح بمعالجة مرنة للمدخلات متعددة الوسائط ، ومن خلال وحدة الانتباه المتبادل ومشفّر البيئة ، فإنه قادر على توليد مجموعات عشوائية من طرائق الإخراج في وقت واحد.

(أعلاه) بنية نموذج CoDi: يستخدم CoDi مخطط تدريب متعدد المراحل قادر على التدريب فقط على عدد خطي من المهام ولكن الاستدلال على جميع مجموعات طرائق الإدخال والإخراج.

丨 مدخلات فردية أو متعددة -> مخرجات متعددة

يمكن أن تأخذ نماذج CoDi إشارات فردية أو متعددة (بما في ذلك الفيديو أو الصورة أو النص أو الصوت) لإنشاء مخرجات محاذاة متعددة ، مثل الفيديو مع الصوت المصاحب.

على سبيل المثال:

** 1. نص + صورة + صوت ——> صوت + فيديو **

"دمية دب على لوح تزلج ، 4k ، دقة عالية" + صورة لميدان تايمز سكوير في نيويورك + صوت ممطر -> بعد جيل CoDi ، قطعة من "لوح تزلج على شكل دب في تايمز سكوير تحت المطر ، برفقة صوت المطر وضوضاء الشوارع المتزامنة ".

كيف يتم إنشاؤها؟

يمكن لـ CoDi بشكل مشترك إنشاء أي مجموعة من مقاطع الفيديو والصورة والصوت والنص عبر الانتشار المركب. يتلقى CoDi أولاً المسارات الصوتية لإنشاء ترجمات نصية ، ثم يتلقى صورًا للصورة + الصوت والصوت ، ثم يتلقى الصورة + الصوت + النص لدمج معلوماتهم لإنشاء صورة مشتركة جديدة + عنوان فرعي. أخيرًا ، يمكن لـ CoDi أيضًا تلقي صورة + صوت + نص وإنشاء فيديو + صوت.

** نصان + صوت + صورة -> نص + صورة **

1. ** 3. ** ** صوت + صورة -> نص + صورة **

1. ** 4. نص + صورة ——> نص + صورة **

** 5. نص ——> فيديو + صوت **

** 6. نص ——> نص + صوت + صورة **

丨 مدخلات متعددة -> مخرج فردي

** 1. نص + صوت —— صورة **

** 2. نص + صورة -> صورة **

** 3 نص + صوت -> فيديو **

** 4 نص + صورة -> فيديو **

** 5. يوجد أيضًا فيديو + صوت -> نص ، صورة + صوت -> صوت ، نص + صورة -> صوت ... إلخ **

丨 إدخال فردي —— مخرج فردي

** 1 نص -> صورة **

** 2 صوت -> صورة **

** 3 صور -> فيديو **

** 4 صور -> صوت **

** 5 صوت -> نص **

** 6 صورة -> نص **

مراجع:

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.