Інтерпретація найсильнішої літературної графової моделі OpenAI — DALL· Е 3

Першоджерело: AIGC Open Community

Джерело зображення: Створено Unbounded AI

Midjourney і Stable Difusion досягли великих успіхів у комерційній монетизації та посадці на основі сценаріїв, що дозволило OpenAI побачити нові можливості для бізнесу та запустити DALL· Одна з важливих причин Е 3.

Минулого тижня OpenAI оголосила про повну доступність графічної моделі Vensheng DALL· серед користувачів ChatGPT Plus та Enterprise Edition. Е3, і в той же час рідкісний випуск наукових робіт.

ДАЛЛ· E 3 і попередні два покоління DALL· E、ДАЛЛ· У порівнянні з E 2 він досяг якісного стрибка в семантичному розумінні, якості зображення, модифікації зображення, інтерпретації зображень, довгому введенні тексту тощо, особливо в поєднанні з ChatGPT, ставши новим козирем OpenAI.

Паперова адреса:

Наступна «Відкрита спільнота AIGC» базуватиметься на DALL· У документі E3 пояснюються основні технічні принципи та функції кожного модуля.

Дослідники виявили, що згенеровані текстом моделі зображень часто мали різні труднощі з дотриманням детальних описів зображень, ігноруючи слова в підказці або плутаючи їх значення, через низьку якість описів зображень у навчальному наборі даних.

Щоб перевірити цю гіпотезу, дослідники спочатку навчили модель, яка генерує підписи для описових зображень. Модель ретельно навчена генерувати детальні та точні описи зображень.

Після використання цієї моделі для регенерації описів для навчального набору даних дослідники порівняли кілька згенерованих текстом моделей зображень, навчених на оригінальному описі та новоствореному описі.

Результати показують, що модель, навчена на новому описі, значно краща за оригінальну модель опису у виконанні підказок. Згодом цей метод був навчений на великомасштабних наборах даних – DALL-E 3.

З точки зору технічної архітектури DALL-E 3, вона в основному поділяється на два модулі: генерація опису зображень та генерація зображень.

Модуль генерації опису зображення

Цей модуль використовує кодувальник зображень CLIP (Contrastive Language-Image Pretraining) і мовну модель GPT (GPT-4) для створення детальних текстових описів для кожного зображення.

Створюючи невеликі набори даних опису об'єктів, великомасштабні набори даних детального опису та встановлення правил генерації, дослідники значно збільшують обсяг інформації про опис зображення, що виводиться модулем, і забезпечують потужну підтримку для подальшої генерації зображень. Основні функції кожного модуля полягають у наступному:

1) Кодувальник зображень CLIP

CLIP — це навчена модель зіставлення тексту зображення, яка кодує зображення у вектор фіксованої довжини, який містить семантичну інформацію зображення. DALL-E 3 використовує кодувальник зображень CLIP для кодування навчального зображення у вектор об'єкта зображення як частину умовної генерації тексту.

2) Мовна модель GPT

DALL-E 3 будує мовну модель на основі архітектури GPT і вчиться генерувати зв'язні текстові описи, максимізуючи спільну ймовірність випадкової вибірки текстових послідовностей.

3) Генерація умовного тексту

Поєднуючи два вищезгадані, вектор ознак зображення вводиться в мовну модель GPT разом з попередньою послідовністю слів, і може бути реалізована умовна генерація тексту зображення. Завдяки навчанню модуль вчиться генерувати детальні описи Deive для кожного зображення.

4) Оптимізація навчання

Незважаючи на те, що інфраструктура для DALL-E 3 завершена, результати прямого навчання недостатньо ідеальні для створення детальних описів. Тому дослідники провели такі технічні оптимізації:

* Створюйте дрібномасштабні набори даних, збирайте детальні описи об'єктів, налаштовуйте мовні моделі та, як правило, описуйте об'єкти зображень.

  • Створюйте великомасштабні детальні набори даних опису, описуйте різні аспекти, такі як тема, фон, колір, текст тощо, і надалі покращуйте якість опису за допомогою тонкого налаштування.
  • Встановіть такі правила, як довжина та стиль згенерованих описів, щоб запобігти відхиленню мовних моделей від людського стилю.

Модуль генерації зображень

Цей модуль спочатку використовує VAE для стиснення зображень з високою роздільною здатністю в низьковимірні вектори, щоб зменшити складність навчання. Потім текст кодується у вектори за допомогою трансформатора Т5 і вводиться в дифузійну модель через шар GroupNorm для визначення напрямку генерації зображення.

Дослідники вважають, що додавання моделі Diffusion значно посилює ефект генерації деталей зображення. Специфіка процесу полягає в наступному:

1) Стиснення зображення

Зображення з високою роздільною здатністю спочатку стискаються в низьковимірні вектори за допомогою моделі VAE, щоб зменшити складність генерації зображень. DALL-E 3 використовує 8-кратну даундискретизацію, а зображення розміром 256 пікселів стискаються в латентний вектор розміром 32x32.

2) Кодувальник тексту

Використовуйте такі мережі, як T5 Transformer, для кодування текстових підказок у вектори для впровадження в моделі генерації зображень.

3)Латентна дифузія

Це основна техніка генерації зображень, яка розкладає проблему генерації зображення на множинні дрібномасштабні збурення вектора шуму, поступово наближаючись до цільового зображення. Ключовим моментом є розробка відповідних прямих і зворотних процесів.

  1. Введення тексту**

Закодований текстовий вектор вводиться в модель латентної дифузії через шар GroupNorm, щоб спрямовувати напрямок генерації зображення для кожного раунду ітерації.

5) Оптимізація навчання

Дослідники виявили, що навчання додаткової моделі Diffusion на стисненому латентному просторі зображень може ще більше покращити якість генерації деталей. Це одна з причин, чому DALL-E 3 видає зображення кращої якості, ніж попередні два покоління.

Дані оцінки CLIP

Дослідники вперше використали модель CLIP для обчислення подібності між зображенням, згенерованим DALL-E 3, і оригінальним текстом опису, тобто оцінкою CLIP. Вони випадковим чином вибрали 4096 описів зображень із набору даних MSCOCO як текст підказки, попросили DALL-E 2, DALL-E 3 і Stable Diffusion XL згенерувати відповідні зображення, а потім розрахували середні бали CLIP з трьох.

Результати показали, що оцінка CLIP DALL-E 3 досягла 32,0, перевершивши 31,4 у DALL-E 2 і 30,5 у Stable Diffusion XL.

Це свідчить про те, що зображення, створене за допомогою DALL-E 3, краще вписується в оригінальний текст опису, а текст краще спрямовує генерацію зображення.

Дані оцінки жеребкування

Продуктивність моделей порівнювалася на наборі даних Drawbench. Набір даних містить багато крихких текстових підказок, які перевіряють розуміння підказок моделлю.

Дослідники використовували GPT-V, візуальну мовну модель, щоб автоматично судити про правильність згенерованих зображень.

У субтесті коротких текстових підказок відсоток зображень, правильно згенерованих DALL-E 3, досяг 70,4%, що значно перевищує 49% DALL-E 2 і 46,9% Stable Diffusion XL.

За довгими текстовими підказками DALL-E 3 також отримав 81% правильних результатів, продовжуючи перевершувати інші моделі.

Оцінка T2I-CompBench

За допомогою кореляційного субтесту в T2I-CompBench досліджується здатність моделі обробляти підказки комбінаційного класу. У трьох тестах зв'язування кольорів, зв'язування форм і зв'язування текстур DALL-E 3 посів перше місце серед моделей за правильним співвідношенням зв'язування, повністю продемонструвавши свою здатність розуміти комбінаційні сигнали.

Ручне оцінювання

Дослідники також запропонували людям оцінити згенеровані зразки з точки зору наступних сигналів, стилістичної узгодженості тощо. В оцінці 170 порад DALL-E 3 значно перевершив Midjourney і Stable Diffusion XL.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити