Интерпретация самой сильной модели литературного графа OpenAI — DALL· Э 3

Первоисточник: AIGC Open Community

Источник изображения: Generated by Unbounded AI

Midjourney и Stable Difusion добились больших успехов в коммерческой монетизации и лендинге на основе сценариев, что позволило OpenAI увидеть новые возможности для бизнеса и запустить DALL· Одна из важных причин для E 3.

На прошлой неделе OpenAI объявила о полной доступности графовой модели Vensheng DALL· среди пользователей ChatGPT Plus и Enterprise Edition. E3, и в то же время редкий выпуск научных работ.

ДАЛЛ· E 3 и два предыдущих поколения DALL· E、ДАЛЛ· По сравнению с E 2 он достиг качественного скачка в семантическом понимании, качестве изображения, модификации изображений, интерпретации изображений, вводе длинного текста и т. д., особенно в сочетании с ChatGPT, став новым козырем OpenAI.

Адрес доклада:

Следующее «Открытое сообщество AIGC» будет основано на DALL· В документе E3 объясняются основные технические принципы и функции каждого модуля.

Исследователи обнаружили, что модели изображений, сгенерированные текстом, часто испытывали различные трудности при следовании подробным описаниям изображений, игнорировании слов в подсказке или путанице в их значениях из-за низкого качества описаний изображений в обучающем наборе данных.

Чтобы проверить эту гипотезу, исследователи сначала обучили модель, которая генерирует подписи к описательным изображениям. Модель тщательно обучена для создания подробных и точных описаний изображений.

После использования этой модели для повторной генерации описаний для обучающего набора данных, исследователи сравнили несколько моделей изображений, сгенерированных текстом, обученных на исходном описании и вновь сгенерированном описании.

Результаты показывают, что модель, обученная на новом описании, значительно лучше, чем исходная модель описания, выполняет подсказки. Впоследствии этот метод был обучен на крупномасштабных наборах данных – DALL-E 3.

С точки зрения технической архитектуры DALL-E 3 он в основном разделен на два модуля: генерация описания изображения и генерация изображения.

Модуль генерации описания изображения

В этом модуле используется кодировщик изображений CLIP (Contrastive Language-Image Pretraining) и языковая модель GPT (GPT-4) для создания подробных текстовых описаний для каждого изображения.

Создавая небольшие наборы данных описания объектов, крупномасштабные наборы данных с подробным описанием и устанавливая правила генерации, исследователи значительно увеличивают объем информации об описании изображений, выводимой модулем, и обеспечивают надежную поддержку для последующей генерации изображений. Основные функции каждого модуля:

1) Кодировщик изображения CLIP

CLIP — это обученная модель сопоставления текста изображения, которая кодирует изображение в вектор фиксированной длины, содержащий семантическую информацию об изображении. DALL-E 3 использует кодировщик изображений CLIP для кодирования обучающего изображения в вектор признаков изображения в рамках условного ввода текста.

2) Языковая модель GPT

DALL-E 3 строит языковую модель, основанную на архитектуре GPT, и учится генерировать связные текстовые описания, максимизируя совместную вероятность случайной выборки текстовых последовательностей.

3) Условная генерация текста

Комбинируя два вышеперечисленных, вектор признаков изображения вводится в языковую модель GPT вместе с предыдущей последовательностью слов, и может быть реализована условная генерация текста изображения. В процессе обучения модуль учится генерировать подробные описания Deive для каждого изображения.

4) Оптимизируйте обучение

Несмотря на то, что инфраструктура для DALL-E 3 уже завершена, результаты непосредственного обучения недостаточно идеальны для создания подробных описаний. Поэтому исследователи провели следующие технические оптимизации:

• Создавайте небольшие наборы данных, собирайте подробные описания объектов, настраивайте языковые модели и, как правило, описывайте объекты изображений.

  • Создавайте крупномасштабные наборы данных с подробным описанием, описывайте различные аспекты, такие как тема, фон, цвет, текст и т. д., и еще больше улучшайте качество описания за счет тонкой настройки.
  • Устанавливайте правила, такие как длина и стиль генерируемых описаний, чтобы языковые модели не отклонялись от человеческого стиля.

Модуль генерации изображений

Этот модуль сначала использует VAE для сжатия изображений с высоким разрешением в низкоразмерные векторы, чтобы снизить сложность обучения. Затем текст кодируется в векторы с помощью трансформатора T5 и вводится в модель диффузии через слой GroupNorm для определения направления генерации изображения.

Исследователи считают, что добавление модели Diffusion значительно усиливает эффект генерации деталей изображения. Конкретный процесс выглядит следующим образом:

1) Сжатие изображения

Изображения с высоким разрешением сначала сжимаются в низкоразмерные векторы с помощью модели VAE, чтобы снизить сложность создания изображений. DALL-E 3 использует 8-кратное понижение разрешения, а изображения размером 256 пикселей сжимаются в скрытый вектор размером 32x32.

2) Кодировщик текста

Используйте такие сети, как T5 Transformer, для кодирования текстовых подсказок в векторы для внедрения в модели генерации изображений.

3)Скрытая диффузия

Это основной метод генерации изображения, который разлагает задачу генерации изображения на множество мелкомасштабных возмущений вектора шума, постепенно приближающихся к целевому изображению. Ключевым моментом является разработка соответствующих прямых и обратных процессов.

  1. Вставка текста**

Закодированный текстовый вектор вводится в модель скрытой диффузии через слой GroupNorm для определения направления генерации изображения для каждого раунда итерации.

5) Оптимизируйте обучение

Исследователи обнаружили, что обучение дополнительной модели диффузии на сжатом скрытом пространстве изображения может еще больше улучшить качество генерации деталей. Это одна из причин, почему DALL-E 3 обеспечивает лучшее качество изображения, чем предыдущие два поколения.

Оценочные данные CLIP

Исследователи впервые использовали модель CLIP для вычисления сходства между изображением, сгенерированным DALL-E 3, и исходным текстом описания, то есть оценкой CLIP. Они случайным образом выбрали 4096 описаний изображений из набора данных MSCOCO в качестве текста подсказки, попросили DALL-E 2, DALL-E 3 и Stable Diffusion XL сгенерировать соответствующие изображения, а затем вычислили средние баллы CLIP из трех изображений.

Результаты показали, что оценка DALL-E 3 по шкале CLIP достигла 32,0, превзойдя показатели DALL-E 2 (31,4) и Stable Diffusion XL (30,5).

Это показывает, что изображение, сгенерированное DALL-E 3, лучше соответствует исходному тексту описания, и текст лучше направляет генерацию изображения.

Данные оценки волочильного стенда

Производительность моделей сравнивалась на наборе данных Drawbench. Набор данных содержит множество хрупких текстовых подсказок, что позволяет проверить понимание их моделью.

Исследователи использовали GPT-V, визуальную языковую модель, чтобы автоматически судить о правильности сгенерированных изображений.

В субтесте коротких текстовых подсказок процент изображений, правильно сгенерированных DALL-E 3, достиг 70,4%, значительно превысив 49% DALL-E 2 и 46,9% Stable Diffusion XL.

На длинных текстовых подсказках DALL-E 3 также показал 81% правильных ответов, продолжая превосходить другие модели.

Оценка T2I-CompBench

С помощью корреляционного субтеста в T2I-CompBench исследуется способность модели обрабатывать подсказки комбинированных классов. В трех тестах на цветовую привязку, привязку формы и текстурную привязку DALL-E 3 занял первое место среди моделей по правильному соотношению переплета, полностью продемонстрировав свою способность понимать комбинированные сигналы.

Ручная оценка

Исследователи также предложили людям оценить сгенерированные образцы с точки зрения следования репликам, стилистической согласованности и так далее. В оценке 170 наконечников DALL-E 3 значительно превзошел Midjourney и Stable Diffusion XL.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить