Исследовательская группа Microsoft Azure и исследователи из Университета Северной Каролины опубликовали статью «Произвольная генерация посредством компонуемой диффузии», в которой представлена новая мультимодальная модель генерации — CoDi (компонуемая диффузия).
CoDi способен генерировать любую комбинацию модальностей вывода из любой комбинации модальностей ввода, таких как язык, изображение, видео или аудио. В отличие от существующих систем генеративного ИИ, CoDi может генерировать несколько модальностей параллельно, и его ввод не ограничивается подмножествами модальностей, такими как текст или изображения. CoDi может обусловливать любую комбинацию входных данных и генерировать любой набор модальностей, даже если они отсутствуют в обучающих данных.
CoDi представляет беспрецедентный уровень генерации контента за счет одновременной обработки и создания мультимодального контента, такого как текст, изображения, аудио и видео. Используя модели распространения и компонуемые методы, CoDi может генерировать высококачественные и разнообразные результаты из одного или нескольких входов, преобразуя создание контента, доступность и персонализированное обучение.
CoDi обладает широкими возможностями настройки и гибкости, обеспечивая надежное качество генерации совместных модальностей, которое превосходит или конкурирует с современным синтезом одной модальности.
Недавно CoDi добился нового прогресса и официально доступен на платформе Microsoft Azure, которую можно использовать бесплатно в течение 12 месяцев.
Насколько мощен CoDi
CoDi появился как часть амбициозного проекта Microsoft i-Code, исследовательской инициативы, посвященной расширению возможностей мультимодального ИИ. Ожидается, что способность CoDi беспрепятственно интегрировать информацию из различных источников и генерировать согласованные выходные данные произведет революцию во многих областях взаимодействия человека с компьютером.
Одной из областей, в которой CoDi может привести к изменениям, являются вспомогательные технологии, позволяющие людям с ограниченными возможностями более эффективно взаимодействовать с компьютерами. Беспрепятственно генерируя контент из текста, изображений, видео и аудио, CoDi может предоставить пользователям более захватывающий и доступный опыт работы с компьютером.
Кроме того, CoDi может заново изобретать пользовательские инструменты обучения, предоставляя комплексную интерактивную среду обучения. Студенты взаимодействуют с мультимодальным контентом, который органично объединяет информацию из различных источников, улучшая их понимание и участие в теме.
CoDi также произведет революцию в создании контента. Модель способна генерировать высококачественные выходные данные в нескольких модальностях, что может упростить процесс создания контента и снизить нагрузку на создателей. Будь то создание привлекательных сообщений в социальных сетях, создание интерактивных мультимедийных презентаций или создание увлекательных историй, возможности CoDi могут изменить ландшафт создания контента.
Чтобы устранить ограничения традиционных одномодальных моделей ИИ, CoDi предлагает решение утомительного и медленного процесса объединения модально-специфических генеративных моделей.
Эта новая модель использует уникальную компонуемую стратегию генерации, которая связывает выравнивание во время распространения и облегчает одновременную генерацию переплетенных модальностей, таких как выровненные по времени видео и аудио.
Процесс обучения модели CoDi также весьма своеобразен. Он включает проецирование модальностей ввода, таких как изображение, видео, аудио и язык, в общее семантическое пространство. Это позволяет гибко обрабатывать мультимодальные входные данные, а с помощью модуля перекрестного внимания и кодировщика среды он может одновременно генерировать произвольные комбинации модальностей вывода.
(Вверху) Архитектура модели CoDi: CoDi использует многоэтапную схему обучения, способную обучать только линейному числу задач, но делать выводы по всем комбинациям входных и выходных модальностей.
丨Один или несколько входов --> несколько выходов
Модели CoDi могут принимать один или несколько сигналов (включая видео, изображение, текст или аудио) для создания нескольких согласованных выходных данных, таких как видео со звуком.
Например:
1. Текст+Изображение+Аудио——>Аудио+Видео
«Плюшевый мишка на скейтборде, 4k, высокое разрешение» + изображение Таймс-сквер в Нью-Йорке + звук дождя --> После генерации CoDi фрагмент «Плюшевый мишка катается на скейтборде по Таймс-сквер под дождем в сопровождении одновременный звук дождя и уличный шум».
Как он генерируется?
CoDi может совместно генерировать любую комбинацию видео, изображений, аудио и текста посредством компонуемой диффузии. CoDi сначала получает звуковые дорожки для создания текстовых субтитров, затем получает изображения для изображения+аудио-аудио, а затем получает изображение+аудио+текст для объединения их информации для создания нового совместного изображения+субтитров. Наконец, CoDi также может получать изображение+аудио+текст и генерировать видео+аудио.
2 текст+аудио+изображение -->текст+изображение
1. 3.Аудио + Изображение --> Текст + Изображение
1. 4. Текст+Изображение ——>Текст+Изображение
5. Текст——>Видео+Аудио
6. Текст——>Текст+Аудио+Изображение
丨Несколько входов --> один выход
1. Текст+Аудио——Изображение
2. Текст + изображение --> изображение
3 Текст+Аудио --> Видео
4 текст + изображение --> видео
5. Есть также видео + аудио --> текст, изображение + аудио --> аудио, текст + изображение --> аудио... и т. д.
丨Один вход — один выход
1 Текст --> Изображение
2 Аудио --> Изображение
3 Изображение --> Видео
4 Изображение --> Аудио
5 Аудио --> Текст
6 Изображение --> Текст
Использованная литература:
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Текст, изображение, аудио и видео... Насколько эффективна кросс-модальная модель Microsoft CoDi?
Исследовательская группа Microsoft Azure и исследователи из Университета Северной Каролины опубликовали статью «Произвольная генерация посредством компонуемой диффузии», в которой представлена новая мультимодальная модель генерации — CoDi (компонуемая диффузия).
CoDi способен генерировать любую комбинацию модальностей вывода из любой комбинации модальностей ввода, таких как язык, изображение, видео или аудио. В отличие от существующих систем генеративного ИИ, CoDi может генерировать несколько модальностей параллельно, и его ввод не ограничивается подмножествами модальностей, такими как текст или изображения. CoDi может обусловливать любую комбинацию входных данных и генерировать любой набор модальностей, даже если они отсутствуют в обучающих данных.
CoDi представляет беспрецедентный уровень генерации контента за счет одновременной обработки и создания мультимодального контента, такого как текст, изображения, аудио и видео. Используя модели распространения и компонуемые методы, CoDi может генерировать высококачественные и разнообразные результаты из одного или нескольких входов, преобразуя создание контента, доступность и персонализированное обучение.
CoDi обладает широкими возможностями настройки и гибкости, обеспечивая надежное качество генерации совместных модальностей, которое превосходит или конкурирует с современным синтезом одной модальности.
Недавно CoDi добился нового прогресса и официально доступен на платформе Microsoft Azure, которую можно использовать бесплатно в течение 12 месяцев.
Насколько мощен CoDi
CoDi появился как часть амбициозного проекта Microsoft i-Code, исследовательской инициативы, посвященной расширению возможностей мультимодального ИИ. Ожидается, что способность CoDi беспрепятственно интегрировать информацию из различных источников и генерировать согласованные выходные данные произведет революцию во многих областях взаимодействия человека с компьютером.
Одной из областей, в которой CoDi может привести к изменениям, являются вспомогательные технологии, позволяющие людям с ограниченными возможностями более эффективно взаимодействовать с компьютерами. Беспрепятственно генерируя контент из текста, изображений, видео и аудио, CoDi может предоставить пользователям более захватывающий и доступный опыт работы с компьютером.
Кроме того, CoDi может заново изобретать пользовательские инструменты обучения, предоставляя комплексную интерактивную среду обучения. Студенты взаимодействуют с мультимодальным контентом, который органично объединяет информацию из различных источников, улучшая их понимание и участие в теме.
CoDi также произведет революцию в создании контента. Модель способна генерировать высококачественные выходные данные в нескольких модальностях, что может упростить процесс создания контента и снизить нагрузку на создателей. Будь то создание привлекательных сообщений в социальных сетях, создание интерактивных мультимедийных презентаций или создание увлекательных историй, возможности CoDi могут изменить ландшафт создания контента.
Чтобы устранить ограничения традиционных одномодальных моделей ИИ, CoDi предлагает решение утомительного и медленного процесса объединения модально-специфических генеративных моделей.
Эта новая модель использует уникальную компонуемую стратегию генерации, которая связывает выравнивание во время распространения и облегчает одновременную генерацию переплетенных модальностей, таких как выровненные по времени видео и аудио.
Процесс обучения модели CoDi также весьма своеобразен. Он включает проецирование модальностей ввода, таких как изображение, видео, аудио и язык, в общее семантическое пространство. Это позволяет гибко обрабатывать мультимодальные входные данные, а с помощью модуля перекрестного внимания и кодировщика среды он может одновременно генерировать произвольные комбинации модальностей вывода.
丨Один или несколько входов --> несколько выходов
Модели CoDi могут принимать один или несколько сигналов (включая видео, изображение, текст или аудио) для создания нескольких согласованных выходных данных, таких как видео со звуком.
Например:
1. Текст+Изображение+Аудио——>Аудио+Видео
«Плюшевый мишка на скейтборде, 4k, высокое разрешение» + изображение Таймс-сквер в Нью-Йорке + звук дождя --> После генерации CoDi фрагмент «Плюшевый мишка катается на скейтборде по Таймс-сквер под дождем в сопровождении одновременный звук дождя и уличный шум».
2 текст+аудио+изображение -->текст+изображение
丨Несколько входов --> один выход
1. Текст+Аудио——Изображение
丨Один вход — один выход
1 Текст --> Изображение