Текст, зображення, аудіо та відео... Наскільки потужною є крос-модальна модель CoDi від Microsoft?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Джерело зображення: створено Unbounded AIДослідницька група Microsoft Azure та дослідники Університету Північної Кароліни опублікували статтю «Довільна генерація за допомогою композиційної дифузії», в якій представлено нову мультимодальну модель генерації — CoDi (компонована дифузія).CoDi здатний генерувати будь-яку комбінацію модальностей виводу з будь-якої комбінації модальностей введення, як-от мова, зображення, відео чи аудіо. На відміну від існуючих генеративних систем штучного інтелекту, CoDi може генерувати кілька модальностей паралельно, і його вхідні дані не обмежуються підмножинами модальностей, такими як текст або зображення. CoDi може обумовлювати будь-яку комбінацію вхідних даних і генерувати будь-який набір модальностей, навіть якщо вони відсутні в навчальних даних.CoDi представляє безпрецедентний рівень генерації контенту шляхом одночасної обробки та генерації мультимодального контенту, такого як текст, зображення, аудіо та відео. Використовуючи дифузійні моделі та методи компонування, CoDi може генерувати високоякісні різноманітні результати з одного чи кількох вхідних даних, перетворюючи створення вмісту, доступність та персоналізоване навчання.CoDi є високонастроюваним і гнучким, що забезпечує надійну якість створення спільної модальності, яка перевершує або конкурує з найсучаснішим синтезом однієї модальності.Нещодавно CoDi досяг нових успіхів і офіційно доступний на платформі Microsoft Azure.Нею можна користуватися безкоштовно протягом 12 місяців.## **Наскільки потужний CoDi**CoDi виник як частина амбітного проекту i-Code Microsoft, дослідницької ініціативи, спрямованої на розвиток мультимодальних можливостей ШІ. Очікується, що здатність CoDi плавно інтегрувати інформацію з різних джерел і генерувати узгоджені результати зробить революцію в багатьох сферах взаємодії людини з комп’ютером.Однією зі сфер, де CoDi може внести зміни, є допоміжні технології, які дозволяють людям з обмеженими можливостями ефективніше взаємодіяти з комп’ютером. Безпроблемно генеруючи вміст із тексту, зображень, відео та аудіо, CoDi може надати користувачам більш захоплюючий і доступний досвід роботи з комп’ютером.Крім того, CoDi має потенціал для переосмислення спеціальних інструментів навчання, забезпечуючи комплексне інтерактивне навчальне середовище. Студенти залучаються до мультимодального контенту, який плавно інтегрує інформацію з різних джерел, покращуючи їхнє розуміння теми та залучення до неї.CoDi також зробить революцію у створенні контенту. Модель здатна генерувати високоякісні результати за допомогою кількох модальностей, що може спростити процес створення вмісту та зменшити навантаження на творців. Незалежно від того, створюєте цікаві публікації в соціальних мережах, створюєте інтерактивні мультимедійні презентації чи створюєте захоплюючий досвід розповіді, можливості CoDi мають потенціал змінити ландшафт створення контенту.Щоб усунути обмеження традиційних унімодальних моделей штучного інтелекту, CoDi пропонує рішення для нудного та повільного процесу комбінування генеративних моделей, що залежать від модальності.У цій новітній моделі використовується унікальна стратегія генерації, що складається, яка поєднує вирівнювання під час дифузії та полегшує одночасну генерацію переплетених модальностей, таких як вирівняне за часом відео та аудіо.Процес навчання моделі CoDi також досить характерний. Це передбачає проектування модальностей введення, таких як зображення, відео, аудіо та мова, у загальний семантичний простір. Це забезпечує гнучку обробку мультимодальних вхідних даних, а через модуль перехресної уваги та кодувальник середовища дозволяє одночасно генерувати довільні комбінації модальностей виводу.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Вгорі) Архітектура моделі CoDi: CoDi використовує багатоетапну схему навчання, здатну навчатися лише на лінійній кількості завдань, але враховуючи всі комбінації модальностей введення та виведення.## **丨Один або кілька входів --> кілька виходів**Моделі CoDi можуть приймати одну або кілька сигналів (включно з відео, зображенням, текстом або аудіо) для генерації кількох вирівняних виходів, наприклад відео з супроводжуючим звуком.Наприклад:**1. Текст+Зображення+Аудіо——>Аудіо+Відео**«Плюшевий ведмедик на скейтборді, 4k, висока роздільна здатність» + зображення Таймс-сквер у Нью-Йорку + дощове аудіо --> Після створення CoDi фрагмент «Плюшевий ведмедик катається на скейтборді на Таймс-сквер під дощем у супроводі одночасний шум дощу та вуличний шум».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Як він генерується?> CoDi може спільно генерувати будь-яку комбінацію відео, зображень, аудіо та тексту за допомогою складної дифузії. CoDi спочатку отримує звукові доріжки для створення текстових субтитрів, потім отримує зображення для зображення+аудіо-аудіо, а потім отримує зображення+аудіо+текст, щоб об’єднати їхню інформацію для створення нового спільного зображення+субтитрів. Нарешті, CoDi також може отримувати зображення+аудіо+текст і генерувати відео+аудіо.**2 текст+аудіо+зображення -->текст+зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Аудіо + зображення --> текст + зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Текст+Зображення ——>Текст+Зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Текст——>Відео+Аудіо**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Текст——>Текст+Аудіо+Зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Кілька входів --> один вихід****1. Текст+Аудіо——Зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Текст + зображення --> зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Текст+Аудіо -->Відео**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 текст + зображення --> відео**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Також є відео + аудіо --> текст, зображення + аудіо --> аудіо, текст + зображення --> аудіо... тощо**## **丨Один вхід——один вихід****1 текст --> зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Аудіо --> Зображення**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 зображення --> відео**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Зображення --> Аудіо**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Аудіо --> Текст**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Зображення --> Текст**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Література:***