Текст, изображение, аудио и видео... Насколько эффективна кросс-модальная модель Microsoft CoDi?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Источник изображения: сгенерировано Unbounded AIИсследовательская группа Microsoft Azure и исследователи из Университета Северной Каролины опубликовали статью «Произвольная генерация посредством компонуемой диффузии», в которой представлена новая мультимодальная модель генерации — CoDi (компонуемая диффузия).CoDi способен генерировать любую комбинацию модальностей вывода из любой комбинации модальностей ввода, таких как язык, изображение, видео или аудио. В отличие от существующих систем генеративного ИИ, CoDi может генерировать несколько модальностей параллельно, и его ввод не ограничивается подмножествами модальностей, такими как текст или изображения. CoDi может обусловливать любую комбинацию входных данных и генерировать любой набор модальностей, даже если они отсутствуют в обучающих данных.CoDi представляет беспрецедентный уровень генерации контента за счет одновременной обработки и создания мультимодального контента, такого как текст, изображения, аудио и видео. Используя модели распространения и компонуемые методы, CoDi может генерировать высококачественные и разнообразные результаты из одного или нескольких входов, преобразуя создание контента, доступность и персонализированное обучение.CoDi обладает широкими возможностями настройки и гибкости, обеспечивая надежное качество генерации совместных модальностей, которое превосходит или конкурирует с современным синтезом одной модальности.Недавно CoDi добился нового прогресса и официально доступен на платформе Microsoft Azure, которую можно использовать бесплатно в течение 12 месяцев.## **Насколько мощен CoDi**CoDi появился как часть амбициозного проекта Microsoft i-Code, исследовательской инициативы, посвященной расширению возможностей мультимодального ИИ. Ожидается, что способность CoDi беспрепятственно интегрировать информацию из различных источников и генерировать согласованные выходные данные произведет революцию во многих областях взаимодействия человека с компьютером.Одной из областей, в которой CoDi может привести к изменениям, являются вспомогательные технологии, позволяющие людям с ограниченными возможностями более эффективно взаимодействовать с компьютерами. Беспрепятственно генерируя контент из текста, изображений, видео и аудио, CoDi может предоставить пользователям более захватывающий и доступный опыт работы с компьютером.Кроме того, CoDi может заново изобретать пользовательские инструменты обучения, предоставляя комплексную интерактивную среду обучения. Студенты взаимодействуют с мультимодальным контентом, который органично объединяет информацию из различных источников, улучшая их понимание и участие в теме.CoDi также произведет революцию в создании контента. Модель способна генерировать высококачественные выходные данные в нескольких модальностях, что может упростить процесс создания контента и снизить нагрузку на создателей. Будь то создание привлекательных сообщений в социальных сетях, создание интерактивных мультимедийных презентаций или создание увлекательных историй, возможности CoDi могут изменить ландшафт создания контента.Чтобы устранить ограничения традиционных одномодальных моделей ИИ, CoDi предлагает решение утомительного и медленного процесса объединения модально-специфических генеративных моделей.Эта новая модель использует уникальную компонуемую стратегию генерации, которая связывает выравнивание во время распространения и облегчает одновременную генерацию переплетенных модальностей, таких как выровненные по времени видео и аудио.Процесс обучения модели CoDi также весьма своеобразен. Он включает проецирование модальностей ввода, таких как изображение, видео, аудио и язык, в общее семантическое пространство. Это позволяет гибко обрабатывать мультимодальные входные данные, а с помощью модуля перекрестного внимания и кодировщика среды он может одновременно генерировать произвольные комбинации модальностей вывода.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Вверху) Архитектура модели CoDi: CoDi использует многоэтапную схему обучения, способную обучать только линейному числу задач, но делать выводы по всем комбинациям входных и выходных модальностей.## **丨Один или несколько входов --> несколько выходов**Модели CoDi могут принимать один или несколько сигналов (включая видео, изображение, текст или аудио) для создания нескольких согласованных выходных данных, таких как видео со звуком.Например:**1. Текст+Изображение+Аудио——>Аудио+Видео**«Плюшевый мишка на скейтборде, 4k, высокое разрешение» + изображение Таймс-сквер в Нью-Йорке + звук дождя --> После генерации CoDi фрагмент «Плюшевый мишка катается на скейтборде по Таймс-сквер под дождем в сопровождении одновременный звук дождя и уличный шум».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Как он генерируется?> CoDi может совместно генерировать любую комбинацию видео, изображений, аудио и текста посредством компонуемой диффузии. CoDi сначала получает звуковые дорожки для создания текстовых субтитров, затем получает изображения для изображения+аудио-аудио, а затем получает изображение+аудио+текст для объединения их информации для создания нового совместного изображения+субтитров. Наконец, CoDi также может получать изображение+аудио+текст и генерировать видео+аудио.**2 текст+аудио+изображение -->текст+изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Аудио + Изображение --> Текст + Изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Текст+Изображение ——>Текст+Изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Текст——>Видео+Аудио**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Текст——>Текст+Аудио+Изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Несколько входов --> один выход****1. Текст+Аудио——Изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Текст + изображение --> изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Текст+Аудио --> Видео**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 текст + изображение --> видео**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Есть также видео + аудио --> текст, изображение + аудио --> аудио, текст + изображение --> аудио... и т. д.**## **丨Один вход — один выход****1 Текст --> Изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Аудио --> Изображение**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 Изображение --> Видео**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Изображение --> Аудио**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Аудио --> Текст**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Изображение --> Текст**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Использованная литература:***