Проривна технологія! Мультимодальна модель з відкритим вихідним кодом — MiniGPT-5

Першоджерело: AIGC Open Community

Джерело зображення: Створено Unbounded AI

Мультимодальна генерація завжди була важливою областю досліджень для таких технологічних гігантів, як OpenAI, Microsoft і Baidu, але як досягти зв'язного тексту та пов'язаних зображень є складною проблемою.

Для того, щоб подолати технічне вузьке місце, Каліфорнійський університет у Санта-Крузі розробив модель MiniGPT-5** та запропонував нову технічну концепцію «Generative Vokens», яка стає «мостом» між простором текстових ознак та простором ознак зображення**, реалізуючи ефективне вирівнювання звичайних навчальних даних та генеруючи високоякісний текст та зображення одночасно.

Щоб оцінити вплив MiniGPT-5, дослідники протестували його на кількох наборах даних, включаючи CC3M, VIST і MMDialog. Результати показують, що MiniGPT-5 перевершує кілька базових ліній порівняння за кількома показниками та здатний генерувати зв'язний, високоякісний текст і зображення.

Наприклад, на наборі даних VIST оцінка CLIP зображення, згенерованого MiniGPT-5, вища, ніж у точно налаштованогоStable Diffusion 2; В оцінці на людях MiniGPT-5 забезпечив кращу мовну зв'язність (57,18%), вищу якість зображення (52,06%) і сильнішу мультимодальну когерентність (57,62%).

На наборі даних MMDialog індекс кореляції MM MiniGPT-5 досяг 0,67, перевищивши 0,62 еталонної моделі Divter. Це повністю доводить сильну адаптивність MiniGPT-5 у різних режимах даних.

Адреса з відкритим вихідним кодом:

Адреса:

Модель MiniGPT-5 має три основні нововведення: 1) Вона використовує мультимодальний кодер для вилучення рис тексту та зображень, що представляє нову технологію вирівнювання тексту та зображення, яка краща, ніж метод прямого використання великих мовних моделей для генерації візуальних токенів.

  1. Запропоновано двоетапну стратегію навчання без повного опису зображення: перший етап був зосереджений на простому вирівнюванні тексту та зображення; На другому етапі здійснюється мультимодальне дрібнозернисте навчання ознак.

  2. У тренінг впроваджено технологію «без класифікатора», яка може ефективно покращити якість контенту мультимодальної генерації. Основна архітектура модуля виглядає наступним чином.

Генеративні вокени

Основною інновацією MiniGPT-5 є висунення технічної концепції «Generative Vokens», яка реалізує безшовний зв'язок між великими мовними моделями та моделями генерації зображень.

Зокрема, дослідники додали до лексикону моделі вісім спеціальних токенів Voken[IMG1] [IMG8]- 。 Ці Vokens використовуються як заповнювачі для зображень під час навчання моделі.

На стороні вводу об'єкти зображення зрощуються зі словесними векторами Voken, утворюючи вхідні дані послідовності. На виході модель передбачає положення цих Vokens, а відповідний прихований стан h_voken використовується для представлення вмісту зображення.

Потім h_voken перетворюється на умовні об'єкти зображення ˆh_voken вирівнюються з виводом кодувальника тексту Stable Diffusion через модуль відображення ознак.

У Stable Diffusion ˆh_voken використовується як умовний вхід для керування генерацією зображення. Весь конвеєр реалізує стикування від зображень до мовних моделей і генерації зображень.

Цей метод вирівнювання за допомогою Voken простіший, ніж зворотні обчислення, і більш універсальний, ніж використання описів зображень. Простіше кажучи, Generative Vokens діє як «міст», який робить передачу інформації між різними доменами моделі більш плавною.

Двоетапна стратегія навчання

Враховуючи, що існують певні доменні відмінності в просторі функцій тексту та зображень, MiniGPT-5 приймає двоетапну стратегію навчання.

Першим етапом є фаза унімодального вирівнювання: використовуються лише дані з однієї пари зображення-текст, наприклад CC3M. Модель вчиться генерувати відповідний Voken з підпису зображення. У той же час було додано вторинну втрату назви зображення, щоб допомогти Voken вирівнятися з вмістом зображення.

Другий етап – це фаза мультимодального навчання: тонке налаштування з використанням даних, що містять суміжні мультимодальні вибірки, такі як VIST. Налаштуйте різні навчальні завдання, включаючи генерацію тексту, генерацію зображень і те й інше. Розширено здатність моделі обробляти мультимодальну інформацію.

Ця поетапна стратегія може полегшити проблему навчання безпосередньо на обмежених даних. Спочатку було виконано грубозернисте вирівнювання, а потім тонко налаштовані дрібнозернисті риси, що покращило виразність і міцність моделі.

Немає вказівок щодо класифікатора

Щоб ще більше покращити зв'язність згенерованого тексту та зображень, MiniGPT-5 також використовує технологію «без вказівок класифікатора».

Основна ідея полягає в тому, що в процесі дифузії зображення умовний Voken замінюється нульовими ознаками з певною ймовірністю досягнення безумовної генерації.

При виведенні умовні та безумовні результати використовуються як позитивні та негативні вибірки, і модель може краще використовувати контраст між ними для отримання узгодженого мультимодального результату. Цей метод простий і ефективний, не потребує введення додаткових класифікаторів і спрямовує навчання моделі через характер порівняння даних.

Модель генерації тексту в зображення

MiniGPT-5 використовує Stable Diffusion 2.1 і мультимодальну модель MiniGPT-4 як модель генерації тексту в зображення. Високоякісні зображення з високою роздільною здатністю можна створювати з текстових описів.

Stable Diffusion використовує модель Diffusion та U-Net як основні компоненти. Дифузійна модель може представляти зображення у вигляді даних про шум, які потім можуть бути знешумлені та реконструйовані крок за кроком.

U-Net використовує текстові об'єкти як умови для керівництва процесом знешумлення для створення відповідних зображень. У порівнянні з GAN, модель Diffusion більш стабільна, а ефект генерації більш чіткий і реалістичний.

Щоб точно узгодити генеративні маркери з генеративною моделлю, дослідники розробили компактний модуль відображення для зіставлення розмірів і включили деякі контрольовані втрати, включаючи втрату текстового простору та втрату моделі латентної дифузії.

Текстові просторові втрати допомагають моделі вивчити правильне положення маркера, тоді як потенційні втрати на дифузію безпосередньо вирівнюють маркер з відповідною візуальною особливістю. Оскільки функції, які генерують Vokens, безпосередньо керуються зображеннями, описове навчання може бути досягнуто без необхідності всебічного опису зображення.

На думку дослідників, найбільший внесок MiniGPT-5 полягає в ефективній інтеграції генерації тексту та генерації зображень. Для попередньої підготовки потрібен лише звичайний текст та зображення, а когерентна мультимодальна генерація може бути проведена без складного опису зображень. Це забезпечує уніфіковане та ефективне рішення мультимодальних завдань.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити