Мета переопределяет мультимодальность! Выпускники Пекинского университета работают вместе, модель графа Винсента с 7 миллиардами параметров превосходит диффузию
Выпускники Пекинского университета работают вместе, Meta выпускает первую в истории единую мультимодальную модель! Модель 7B победила Diffusion, и проблема идеального рисования руки была прекрасно решена.
Мета снова здесь!
Только что Meta запустила мультимодальную модель на базе Transformer — CM3leon, которая совершила абсолютный прорыв в области графов Винсента и понимания изображений и может быть названа лучшей в своем роде.
Более того, эта комбинация нескольких модальностей в одной модели беспрецедентна для ранее раскрытых систем ИИ.
Очевидно, что это исследование Meta определяет новый стандарт мультимодального ИИ, который указывает на то, что система ИИ может полностью свободно переключаться в таких задачах, как понимание, редактирование и генерация изображений, видео и текстов.
Между тем, запуск CM3leon официально знаменует собой первый раз, когда модель авторегрессии соответствует производительности ведущих моделей генеративной диффузии в ключевых тестах.
Адрес бумаги:
Ранее тремя звездообразными моделями, которым уделялось наибольшее внимание в графической области Винсента, были Stable Diffusion, DALL-E и Midjourney. Метод диаграммы Винсена в основном основан на диффузионной модели.
Но революционное значение CM3leon в том, что он использует совершенно другую технологию — авторегрессионную модель на основе токенизатора.
Результаты показывают, что авторегрессионная модель на основе токенизатора не только более эффективна, чем метод на основе диффузионной модели, и достигает СОТА в области графов Винсента, но и требует в пять раз меньше обучающих вычислений, чем предыдущий метод на основе трансформатора. !
Готовьтесь, грядет волна крутых эффектов
Просто глядя на необработанные показатели производительности, ничего нельзя объяснить.
Где CM3leon действительно сияет, так это в решении более сложных задач с подсказками и редактированием изображений.
Точная визуализация изображений с потрясающими результатами
Например, он может точно отображать изображения из таких реплик, как «маленький кактус в Сахаре в соломенной шляпе и неоновых солнцезащитных очках».
Произвольно, редактируйте изображения по своему усмотрению
CM3leon также имеет уникальную возможность редактировать существующие изображения на основе текстовых инструкций в свободной форме, таких как изменение цвета неба или добавление объектов в определенных местах.
Вышеуказанные функции намного превосходят возможности таких моделей, как DALL-E 2.
Беспрецедентная мультимодальная одиночная модель
Универсальная архитектура CM3leon позволяет свободно и плавно переключаться между текстовыми, графическими и композиционными задачами.
Помимо возможностей диаграмм Винсента, CM3leon может генерировать аннотации к изображениям, отвечать на вопросы о содержании изображения и даже создавать изображения из текстовых описаний ограничивающих рамок и карт сегментации.
Такое объединение модальностей в единую модель беспрецедентно для ранее раскрытых систем ИИ.
: Что держит собака? Модель ответила: палка.
: Подробно описывает данное изображение. Модель отвечает: На этом изображении собака держит в пасти палку. На земле есть трава. На изображении есть деревья на заднем плане.
Учитывая текстовое описание сегментации ограничивающей рамки изображения, указывающее, где в изображении необходимы пул и зеркало, CM3leon может точно сгенерировать соответствующее изображение.
Сверхвысокое разрешение
Отдельная платформа сверхвысокого разрешения может быть интегрирована с выходом CM3leon, что приведет к значительному увеличению разрешения и детализации.
Войдите в «небольшой круглый остров посреди озера, с лесами вокруг озера, высокая контрастность» ——
Решить проблему с ИИ-художником
Даже давняя проблема неспособности ИИ рисовать руки была легко решена CM3leon.
Авторегрессионная модель впервые победила диффузионную?
В области диаграмм Винсента, которые стали популярными в последние годы, Midjourney, DALL-E 2 и Stable Diffusion используют технологию диффузии. Хотя метод диффузии дает ошеломляющие результаты, он требует больших вычислительных ресурсов, что делает его ресурсоемким, дорогостоящим в работе и часто не обеспечивает скорости, необходимой для приложений реального времени.
Интересно, что несколько лет назад OpenAI хотел изучить возможности Transformer как средства генерации изображений с помощью модели под названием Image GPT. Но в конце концов от этой идеи отказались в пользу Diffusion.
CM3leon использует совершенно другой подход. Как модель на основе Transformer, она использует механизм внимания для взвешивания релевантности входных данных (будь то текст или изображения).
Это архитектурное отличие позволяет CM3leon достигать более высокой скорости обучения и лучшего распараллеливания, что делает его более эффективным, чем традиционные методы, основанные на диффузии.
Имея только один TPU, CM3leon эффективно обучается набору данных изображений и достигает оценки FID 4,88 в наборе данных MS-COCO, превосходя модель Parti преобразования текста в изображение Google.
При этом эффективность CM3leon более чем в 5 раз выше, чем у аналогичной архитектуры Transformer.
Причина успеха CM3leon связана с его уникальной архитектурой и методом обучения.
Ключом к его высокой производительности является метод контролируемой тонкой настройки (SFT).
SFT ранее использовался для обучения моделей генерации текста, таких как ChatGPT, с хорошим эффектом, но Meta утверждает, что он также может быть полезен при применении к изображениям.
На самом деле, точная настройка инструкций улучшила производительность CM3Leon не только при создании изображений, но и при написании аннотаций к изображениям, что позволило ему отвечать на вопросы об изображениях и улучшать производительность изображений, следуя текстовым инструкциям, таким как «Измените цвет неба на ярко-синий."") для редактирования изображения.
CM3leon использует только архитектуру декодера-преобразователя, похожую на известные текстовые модели, но добавляет возможность обработки текста и изображений.
Процесс обучения включает в себя расширение поиска, а также тонкую настройку инструкций для различных задач по созданию изображений и текста.
Применяя кросс-модальные методы тонкой настройки под наблюдением, Meta значительно повышает производительность CM3leon при аннотации изображений, визуальном контроле качества и редактировании текста.
Хотя CM3leon обучается только на 3 миллиардах текстовых токенов, он соответствует или даже превосходит результаты других моделей, обученных на 100 миллиардах токенов.
Как первая мультимодальная модель, настроенная аналогично моделям текстового языка, Meta включает в себя крупномасштабный этап предварительной подготовки с расширенным поиском и второй этап многозадачной контролируемой точной настройки (SFT) в CM3leon.
Как ведет себя CM3leon
Благодаря возможностям CM3leon инструменты генерации изображений могут создавать более согласованные изображения, которые лучше следуют входным сигналам.
Ниже приведена демонстрация возможностей CM3leon в различных задачах, выполняемых одной моделью:
генерация текста в изображение
Редактирование изображений на основе текста (например, «изменить цвет неба на ярко-синий») является сложной задачей, поскольку требует, чтобы модель понимала как текстовые инструкции, так и визуальный контент.
Особенно, когда задействованы сложные объекты или когда подсказка содержит несколько ограничений, которые должны присутствовать в выводе.
Из текста подсказки с высокой композиционной структурой CM3leon может создать изображение, которому нужно следовать.
(1) Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара (2) Крупный план человеческой руки (3) Главный герой енота в аниме готовится вступить в эпическую битву с катаной (4) в стиле фэнтези Знак "Стоп" с надписью "1991"
Редактирование изображений на основе текста
Получив изображение и текстовую подсказку, CM3leon может отредактировать изображение в соответствии с инструкциями в тексте.
Из-за универсальности модели CM3leon это достигается с помощью той же модели, что и для других задач, в отличие от предыдущих моделей (таких как InstructPix2Pix), которые были настроены только для текстового редактирования изображений.
В то же время модель CM3leon также может генерировать короткие или длинные описания и отвечать на вопросы об изображениях на основе ряда различных подсказок.
Возьмите каштан.
намекать:
Вопрос: Что общего между этими двумя объектами?
Контекст: выберите лучший ответ.
Варианты: (A) Блестящий (B) Соленый
Ответ: Давайте подумаем пошагово:
Выход CM3Leon:
Думайте о каждом объекте. Чипсы соленые. Крендели соленые. Итак, ответ (Б).
- намекать:
Подробно опишите все объекты на данном изображении.
Выход CM3Leon:
Уличный знак сидит на металлическом столбе. Логотип синего цвета с белым текстом. На столбе горит красный свет. Небо ярко-синее. На улице стоят машины. По обеим сторонам улицы растут деревья. По обеим сторонам улицы есть строения.
Точно так же CM3leon может легко обрабатывать следующие «вопросы и ответы с картинками».
Чтобы узнать больше о CM3leon, Meta эмпирически оценивает модели с тонкой настройкой инструкций по созданию подписей к изображениям и визуальным ответам на вопросы и сравнивает их с предыдущими тестами SOTA.
По сравнению с Flamingo (100B) и OpenFlamingo (40B) текстовых данных модели CM3leon значительно меньше (около 3B токенов).
Но с точки зрения описания изображения MS-COCO и ответов на вопросы VQA2 CM3leon достиг той же производительности, что и OpenFlamingo с нулевой выборкой, и даже превзошел Flamingo почти на 10 процентных пунктов в задаче VizWiz.
Редактирование изображений с учетом структуры
Редактирование изображений на основе структуры направлено на понимание и интерпретацию предоставленных текстовых инструкций вместе со структурной информацией или информацией о макете.
Это позволяет моделям CM3leon создавать визуально согласованные и контекстуально подходящие компиляции изображений, придерживаясь заданных инструкций по структуре или макету.
В изображении, содержащем только сегменты (без текстовых категорий), сгенерируйте изображение. Вход здесь представляет собой изображение, из которого извлекается сегментация.
Суперразрешение
В дополнение к этому, в области генерации изображений есть распространенный трюк — использование отдельно обученного этапа сверхвысокого разрешения для создания изображений с более высоким разрешением из выходных данных исходной модели.
Для этого типа задачи преобразования текста в изображение CM3leon также работает очень хорошо.
(1) Чашка дымящегося кофе на фоне гор, стоящая на дороге
(2) На закате красивое и величественное шоссе
(3) Круглый остров в центре озера, окруженный лесами.
И некоторая генерация в стиле "фэнтези".
(1) Черепаха плывет под водой (2) Слон плывет под водой (2) Стая овец
Как собрать CM3Leon
Состав
Что касается архитектуры, CM3Leon использует Transformer только для декодера, аналогичный зрелой текстовой модели.
Но разница в том, что CM3Leon может вводить и генерировать текст и изображения.
тренироваться
Приняв технологию улучшения обучающего поиска, предложенную в статье «Повторно расширенное мультимодальное языковое моделирование», Meta значительно повышает эффективность и управляемость модели CM3Leon.
В то же время Meta также настроила модель CM3Leon для различных задач генерации изображений и текста.
Слева: общие входы для разных задач, справа: соответствующие выходы модели. Во время обучения Meta объединяет входные и выходные данные модели и обучает с той же целью, что и на этапе предварительного обучения.
Поскольку индустрия ИИ продолжает расти, генеративные модели, такие как CM3Leon, становятся все более сложными.
Эти модели изучают взаимосвязь между зрением и текстом, обучаясь на миллионах примеров изображений, но они также могут отражать предвзятость, присутствующую в обучающих данных.
Поэтому Meta использует лицензированный набор данных для обучения CM3Leon.
Результаты также показывают, что CM3Leon по-прежнему демонстрирует высокую производительность, хотя распределение данных сильно отличается от предыдущих моделей.
В связи с этим Мета надеется, что совместными усилиями всех можно будет создать более точную, справедливую и справедливую модель.
Прокладывая путь для мультимодальных языковых моделей
В целом, Meta считает, что отличная производительность CM3Leon в различных задачах является важным шагом на пути к более реалистичному созданию и пониманию изображений.
И такая модель в конечном итоге может помочь повысить креативность и улучшить применение в метавселенной.
об авторе
Лили Ю, Боуэн Ши и Рамакант Пасунуру являются соавторами статьи.
Среди них Лили Ю получила степень бакалавра физического факультета Пекинского университета и степень доктора электротехники и компьютерных наук Массачусетского технологического института.
Использованная литература:
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Мета переопределяет мультимодальность! Выпускники Пекинского университета работают вместе, модель графа Винсента с 7 миллиардами параметров превосходит диффузию
Источник: Синьчжиюань
Мета снова здесь!
Только что Meta запустила мультимодальную модель на базе Transformer — CM3leon, которая совершила абсолютный прорыв в области графов Винсента и понимания изображений и может быть названа лучшей в своем роде.
Более того, эта комбинация нескольких модальностей в одной модели беспрецедентна для ранее раскрытых систем ИИ.
Между тем, запуск CM3leon официально знаменует собой первый раз, когда модель авторегрессии соответствует производительности ведущих моделей генеративной диффузии в ключевых тестах.
Ранее тремя звездообразными моделями, которым уделялось наибольшее внимание в графической области Винсента, были Stable Diffusion, DALL-E и Midjourney. Метод диаграммы Винсена в основном основан на диффузионной модели.
Но революционное значение CM3leon в том, что он использует совершенно другую технологию — авторегрессионную модель на основе токенизатора.
Результаты показывают, что авторегрессионная модель на основе токенизатора не только более эффективна, чем метод на основе диффузионной модели, и достигает СОТА в области графов Винсента, но и требует в пять раз меньше обучающих вычислений, чем предыдущий метод на основе трансформатора. !
Готовьтесь, грядет волна крутых эффектов
Просто глядя на необработанные показатели производительности, ничего нельзя объяснить.
Где CM3leon действительно сияет, так это в решении более сложных задач с подсказками и редактированием изображений.
Точная визуализация изображений с потрясающими результатами
Например, он может точно отображать изображения из таких реплик, как «маленький кактус в Сахаре в соломенной шляпе и неоновых солнцезащитных очках».
CM3leon также имеет уникальную возможность редактировать существующие изображения на основе текстовых инструкций в свободной форме, таких как изменение цвета неба или добавление объектов в определенных местах.
Вышеуказанные функции намного превосходят возможности таких моделей, как DALL-E 2.
Универсальная архитектура CM3leon позволяет свободно и плавно переключаться между текстовыми, графическими и композиционными задачами.
Помимо возможностей диаграмм Винсента, CM3leon может генерировать аннотации к изображениям, отвечать на вопросы о содержании изображения и даже создавать изображения из текстовых описаний ограничивающих рамок и карт сегментации.
Такое объединение модальностей в единую модель беспрецедентно для ранее раскрытых систем ИИ.
: Что держит собака? Модель ответила: палка.
: Подробно описывает данное изображение. Модель отвечает: На этом изображении собака держит в пасти палку. На земле есть трава. На изображении есть деревья на заднем плане.
Отдельная платформа сверхвысокого разрешения может быть интегрирована с выходом CM3leon, что приведет к значительному увеличению разрешения и детализации.
Войдите в «небольшой круглый остров посреди озера, с лесами вокруг озера, высокая контрастность» ——
Даже давняя проблема неспособности ИИ рисовать руки была легко решена CM3leon.
Авторегрессионная модель впервые победила диффузионную?
В области диаграмм Винсента, которые стали популярными в последние годы, Midjourney, DALL-E 2 и Stable Diffusion используют технологию диффузии. Хотя метод диффузии дает ошеломляющие результаты, он требует больших вычислительных ресурсов, что делает его ресурсоемким, дорогостоящим в работе и часто не обеспечивает скорости, необходимой для приложений реального времени.
Интересно, что несколько лет назад OpenAI хотел изучить возможности Transformer как средства генерации изображений с помощью модели под названием Image GPT. Но в конце концов от этой идеи отказались в пользу Diffusion.
CM3leon использует совершенно другой подход. Как модель на основе Transformer, она использует механизм внимания для взвешивания релевантности входных данных (будь то текст или изображения).
Это архитектурное отличие позволяет CM3leon достигать более высокой скорости обучения и лучшего распараллеливания, что делает его более эффективным, чем традиционные методы, основанные на диффузии.
Имея только один TPU, CM3leon эффективно обучается набору данных изображений и достигает оценки FID 4,88 в наборе данных MS-COCO, превосходя модель Parti преобразования текста в изображение Google.
При этом эффективность CM3leon более чем в 5 раз выше, чем у аналогичной архитектуры Transformer.
Ключом к его высокой производительности является метод контролируемой тонкой настройки (SFT).
SFT ранее использовался для обучения моделей генерации текста, таких как ChatGPT, с хорошим эффектом, но Meta утверждает, что он также может быть полезен при применении к изображениям.
На самом деле, точная настройка инструкций улучшила производительность CM3Leon не только при создании изображений, но и при написании аннотаций к изображениям, что позволило ему отвечать на вопросы об изображениях и улучшать производительность изображений, следуя текстовым инструкциям, таким как «Измените цвет неба на ярко-синий."") для редактирования изображения.
CM3leon использует только архитектуру декодера-преобразователя, похожую на известные текстовые модели, но добавляет возможность обработки текста и изображений.
Процесс обучения включает в себя расширение поиска, а также тонкую настройку инструкций для различных задач по созданию изображений и текста.
Применяя кросс-модальные методы тонкой настройки под наблюдением, Meta значительно повышает производительность CM3leon при аннотации изображений, визуальном контроле качества и редактировании текста.
Хотя CM3leon обучается только на 3 миллиардах текстовых токенов, он соответствует или даже превосходит результаты других моделей, обученных на 100 миллиардах токенов.
Как первая мультимодальная модель, настроенная аналогично моделям текстового языка, Meta включает в себя крупномасштабный этап предварительной подготовки с расширенным поиском и второй этап многозадачной контролируемой точной настройки (SFT) в CM3leon.
Как ведет себя CM3leon
Благодаря возможностям CM3leon инструменты генерации изображений могут создавать более согласованные изображения, которые лучше следуют входным сигналам.
Ниже приведена демонстрация возможностей CM3leon в различных задачах, выполняемых одной моделью:
генерация текста в изображение
Редактирование изображений на основе текста (например, «изменить цвет неба на ярко-синий») является сложной задачей, поскольку требует, чтобы модель понимала как текстовые инструкции, так и визуальный контент.
Особенно, когда задействованы сложные объекты или когда подсказка содержит несколько ограничений, которые должны присутствовать в выводе.
Из текста подсказки с высокой композиционной структурой CM3leon может создать изображение, которому нужно следовать.
Редактирование изображений на основе текста
Получив изображение и текстовую подсказку, CM3leon может отредактировать изображение в соответствии с инструкциями в тексте.
Из-за универсальности модели CM3leon это достигается с помощью той же модели, что и для других задач, в отличие от предыдущих моделей (таких как InstructPix2Pix), которые были настроены только для текстового редактирования изображений.
Возьмите каштан.
Вопрос: Что общего между этими двумя объектами?
Контекст: выберите лучший ответ.
Варианты: (A) Блестящий (B) Соленый
Ответ: Давайте подумаем пошагово:
Думайте о каждом объекте. Чипсы соленые. Крендели соленые. Итак, ответ (Б).
Подробно опишите все объекты на данном изображении.
Уличный знак сидит на металлическом столбе. Логотип синего цвета с белым текстом. На столбе горит красный свет. Небо ярко-синее. На улице стоят машины. По обеим сторонам улицы растут деревья. По обеим сторонам улицы есть строения.
По сравнению с Flamingo (100B) и OpenFlamingo (40B) текстовых данных модели CM3leon значительно меньше (около 3B токенов).
Но с точки зрения описания изображения MS-COCO и ответов на вопросы VQA2 CM3leon достиг той же производительности, что и OpenFlamingo с нулевой выборкой, и даже превзошел Flamingo почти на 10 процентных пунктов в задаче VizWiz.
Редактирование изображений на основе структуры направлено на понимание и интерпретацию предоставленных текстовых инструкций вместе со структурной информацией или информацией о макете.
Это позволяет моделям CM3leon создавать визуально согласованные и контекстуально подходящие компиляции изображений, придерживаясь заданных инструкций по структуре или макету.
В изображении, содержащем только сегменты (без текстовых категорий), сгенерируйте изображение. Вход здесь представляет собой изображение, из которого извлекается сегментация.
В дополнение к этому, в области генерации изображений есть распространенный трюк — использование отдельно обученного этапа сверхвысокого разрешения для создания изображений с более высоким разрешением из выходных данных исходной модели.
Для этого типа задачи преобразования текста в изображение CM3leon также работает очень хорошо.
(2) На закате красивое и величественное шоссе
(3) Круглый остров в центре озера, окруженный лесами.
И некоторая генерация в стиле "фэнтези".
Как собрать CM3Leon
Состав
Что касается архитектуры, CM3Leon использует Transformer только для декодера, аналогичный зрелой текстовой модели.
Но разница в том, что CM3Leon может вводить и генерировать текст и изображения.
тренироваться
Приняв технологию улучшения обучающего поиска, предложенную в статье «Повторно расширенное мультимодальное языковое моделирование», Meta значительно повышает эффективность и управляемость модели CM3Leon.
В то же время Meta также настроила модель CM3Leon для различных задач генерации изображений и текста.
Поскольку индустрия ИИ продолжает расти, генеративные модели, такие как CM3Leon, становятся все более сложными.
Эти модели изучают взаимосвязь между зрением и текстом, обучаясь на миллионах примеров изображений, но они также могут отражать предвзятость, присутствующую в обучающих данных.
Поэтому Meta использует лицензированный набор данных для обучения CM3Leon.
Результаты также показывают, что CM3Leon по-прежнему демонстрирует высокую производительность, хотя распределение данных сильно отличается от предыдущих моделей.
В связи с этим Мета надеется, что совместными усилиями всех можно будет создать более точную, справедливую и справедливую модель.
Прокладывая путь для мультимодальных языковых моделей
В целом, Meta считает, что отличная производительность CM3Leon в различных задачах является важным шагом на пути к более реалистичному созданию и пониманию изображений.
И такая модель в конечном итоге может помочь повысить креативность и улучшить применение в метавселенной.
об авторе
Лили Ю, Боуэн Ши и Рамакант Пасунуру являются соавторами статьи.
Среди них Лили Ю получила степень бакалавра физического факультета Пекинского университета и степень доктора электротехники и компьютерных наук Массачусетского технологического института.