Текст, изображение, аудио и видео... Насколько эффективна кросс-модальная модель Microsoft CoDi?

Источник изображения: сгенерировано Unbounded AI

Исследовательская группа Microsoft Azure и исследователи из Университета Северной Каролины опубликовали статью «Произвольная генерация посредством компонуемой диффузии», в которой представлена новая мультимодальная модель генерации — CoDi (компонуемая диффузия).

CoDi способен генерировать любую комбинацию модальностей вывода из любой комбинации модальностей ввода, таких как язык, изображение, видео или аудио. В отличие от существующих систем генеративного ИИ, CoDi может генерировать несколько модальностей параллельно, и его ввод не ограничивается подмножествами модальностей, такими как текст или изображения. CoDi может обусловливать любую комбинацию входных данных и генерировать любой набор модальностей, даже если они отсутствуют в обучающих данных.

CoDi представляет беспрецедентный уровень генерации контента за счет одновременной обработки и создания мультимодального контента, такого как текст, изображения, аудио и видео. Используя модели распространения и компонуемые методы, CoDi может генерировать высококачественные и разнообразные результаты из одного или нескольких входов, преобразуя создание контента, доступность и персонализированное обучение.

CoDi обладает широкими возможностями настройки и гибкости, обеспечивая надежное качество генерации совместных модальностей, которое превосходит или конкурирует с современным синтезом одной модальности.

Недавно CoDi добился нового прогресса и официально доступен на платформе Microsoft Azure, которую можно использовать бесплатно в течение 12 месяцев.

Насколько мощен CoDi

CoDi появился как часть амбициозного проекта Microsoft i-Code, исследовательской инициативы, посвященной расширению возможностей мультимодального ИИ. Ожидается, что способность CoDi беспрепятственно интегрировать информацию из различных источников и генерировать согласованные выходные данные произведет революцию во многих областях взаимодействия человека с компьютером.

Одной из областей, в которой CoDi может привести к изменениям, являются вспомогательные технологии, позволяющие людям с ограниченными возможностями более эффективно взаимодействовать с компьютерами. Беспрепятственно генерируя контент из текста, изображений, видео и аудио, CoDi может предоставить пользователям более захватывающий и доступный опыт работы с компьютером.

Кроме того, CoDi может заново изобретать пользовательские инструменты обучения, предоставляя комплексную интерактивную среду обучения. Студенты взаимодействуют с мультимодальным контентом, который органично объединяет информацию из различных источников, улучшая их понимание и участие в теме.

CoDi также произведет революцию в создании контента. Модель способна генерировать высококачественные выходные данные в нескольких модальностях, что может упростить процесс создания контента и снизить нагрузку на создателей. Будь то создание привлекательных сообщений в социальных сетях, создание интерактивных мультимедийных презентаций или создание увлекательных историй, возможности CoDi могут изменить ландшафт создания контента.

Чтобы устранить ограничения традиционных одномодальных моделей ИИ, CoDi предлагает решение утомительного и медленного процесса объединения модально-специфических генеративных моделей.

Эта новая модель использует уникальную компонуемую стратегию генерации, которая связывает выравнивание во время распространения и облегчает одновременную генерацию переплетенных модальностей, таких как выровненные по времени видео и аудио.

Процесс обучения модели CoDi также весьма своеобразен. Он включает проецирование модальностей ввода, таких как изображение, видео, аудио и язык, в общее семантическое пространство. Это позволяет гибко обрабатывать мультимодальные входные данные, а с помощью модуля перекрестного внимания и кодировщика среды он может одновременно генерировать произвольные комбинации модальностей вывода.

(Вверху) Архитектура модели CoDi: CoDi использует многоэтапную схему обучения, способную обучать только линейному числу задач, но делать выводы по всем комбинациям входных и выходных модальностей.

丨Один или несколько входов --> несколько выходов

Модели CoDi могут принимать один или несколько сигналов (включая видео, изображение, текст или аудио) для создания нескольких согласованных выходных данных, таких как видео со звуком.

Например:

1. Текст+Изображение+Аудио——>Аудио+Видео

«Плюшевый мишка на скейтборде, 4k, высокое разрешение» + изображение Таймс-сквер в Нью-Йорке + звук дождя --> После генерации CoDi фрагмент «Плюшевый мишка катается на скейтборде по Таймс-сквер под дождем в сопровождении одновременный звук дождя и уличный шум».

Как он генерируется?

CoDi может совместно генерировать любую комбинацию видео, изображений, аудио и текста посредством компонуемой диффузии. CoDi сначала получает звуковые дорожки для создания текстовых субтитров, затем получает изображения для изображения+аудио-аудио, а затем получает изображение+аудио+текст для объединения их информации для создания нового совместного изображения+субтитров. Наконец, CoDi также может получать изображение+аудио+текст и генерировать видео+аудио.

2 текст+аудио+изображение -->текст+изображение

1. 3. Аудио + Изображение --> Текст + Изображение

1. 4. Текст+Изображение ——>Текст+Изображение

5. Текст——>Видео+Аудио

6. Текст——>Текст+Аудио+Изображение

丨Несколько входов --> один выход

1. Текст+Аудио——Изображение

2. Текст + изображение --> изображение

3 Текст+Аудио --> Видео

4 текст + изображение --> видео

5. Есть также видео + аудио --> текст, изображение + аудио --> аудио, текст + изображение --> аудио... и т. д.

丨Один вход — один выход

1 Текст --> Изображение

2 Аудио --> Изображение

3 Изображение --> Видео

4 Изображение --> Аудио

5 Аудио --> Текст

6 Изображение --> Текст

Использованная литература:

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить