Тут MiniGPT-5, який об’єднує генерацію зображень і тексту: Token стає Voken, і модель може не тільки продовжувати писати, але й автоматично додавати зображення.

Велика модель OpenAI GPT-5, здається, ще далека, але деякі дослідники взяли на себе ініціативу в запуску інноваційної візуальної та мовної крос-генераційної моделі MiniGPT-5. Це має важливе значення для створення зображень із послідовними текстовими описами.

Джерело зображення: створено Unbounded AI

Великі моделі роблять стрибок між мовою та баченням, обіцяючи безперебійне розуміння та генерування текстового та графічного вмісту. У серії нещодавніх досліджень інтеграція мультимодальних функцій є не тільки зростаючою тенденцією, але й уже призвела до ключових досягнень, починаючи від мультимодальних розмов до інструментів для створення вмісту. Великі мовні моделі продемонстрували неперевершені можливості розуміння та створення тексту. Однак одночасне створення зображень із зв’язними текстовими оповідями все ще є областю, яку потрібно розвивати.

Нещодавно дослідницька група з Каліфорнійського університету в Санта-Круз запропонувала MiniGPT-5, інноваційну технологію генерації візуальної мови з чергуванням, засновану на концепції «генеративного голосування».

* Адреса паперу:

  • адреса проекту:

Поєднуючи механізм Stable Diffusion із LLM за допомогою спеціального візуального маркера «generative vote», MiniGPT-5 проголошує нову модель кваліфікованої мультимодальної генерації. У той же час двоетапний метод навчання, запропонований у цій статті, підкреслює важливість базового етапу без опису, що дозволяє моделі «процвітати», навіть коли даних мало. Загальна фаза методу не потребує предметно-спеціальних анотацій, що робить наше рішення відмінним від існуючих методів. Щоб гарантувати гармонійність створеного тексту та зображень, у цій статті використовується стратегія подвійних втрат, а метод генеративного голосування та метод класифікації ще більше підсилюють цей ефект.

Спираючись на ці методи, ця робота знаменує трансформаційний підхід. Використовуючи ViT (Vision Transformer) і Qformer, а також великі мовні моделі, дослідницька група перетворює мультимодальні вхідні дані в генеративні голоси та бездоганно поєднує їх із високою роздільною здатністю Stable Diffusion2.1 для створення контекстно-залежного зображення. Ця стаття поєднує зображення як допоміжний вхід із методами коригування інструкцій і є піонером у використанні втрат генерації тексту та зображення, тим самим розширюючи синергію між текстом і баченням.

MiniGPT-5 відповідає таким моделям, як обмеження CLIP, і вміло інтегрує модель дифузії з MiniGPT-4 для досягнення кращих мультимодальних результатів, не покладаючись на доменно-специфічні анотації. Найважливіше те, що наша стратегія може використати переваги в основних моделях мультимодальної візуальної мови та надати новий план для покращення мультимодальних генеративних можливостей.

Як показано на малюнку нижче, окрім оригінальних можливостей мультимодального розуміння та генерування тексту, MiniGPT5 також може забезпечити обґрунтований і узгоджений мультимодальний вихід:

Внесок цієї статті відображається в трьох аспектах:

  • Рекомендується використовувати мультимодальний кодер, який представляє нову техніку загального призначення та доведено, що він ефективніший, ніж LLM та інвертовані генеративні Vokens, а також поєднувати його зі стабільною дифузією для генерування візуальних та мовних результатів із чергуванням (мультимодальний). модель мови, здатна до мультимодальної генерації).
  • Висвітлює нову двоетапну стратегію навчання мультимодального покоління без опису. Етап одномодального вирівнювання отримує високоякісні візуальні елементи з вирівняним текстом із великої кількості пар текст-зображення. Фаза мультимодального навчання включає нове навчальне завдання, створення контексту, що гарантує, що бачення та текст можуть бути добре скоординовані та створені. Додавання вказівок без класифікатора під час фази навчання додатково покращує якість генерації.
  • У порівнянні з іншими мультимодальними генеративними моделями, MiniGPT-5 досягає найсучаснішої продуктивності на наборі даних CC3M. MiniGPT-5 також встановив нові тести для відомих наборів даних, таких як VIST і MMDialog.

Далі розглянемо деталі дослідження.

Огляд методу

Щоб надати широкомасштабним мовним моделям можливості мультимодального генерування, дослідники представили структуровану структуру, яка об’єднує попередньо підготовлені багатомодальні великомасштабні мовні моделі та моделі генерації тексту в зображення. Щоб вирішити відмінності між різними полями моделі, вони ввели спеціальні візуальні символи «генеративні голоси» (generative votes), які можна тренувати прямо на вихідних зображеннях. Крім того, удосконалено двоетапний метод навчання в поєднанні зі стратегією завантаження без класифікатора для подальшого покращення якості генерації.

Мультимодальний вхідний етап

Останні досягнення в мультимодальних великих моделях (таких як MiniGPT-4) головним чином зосереджені на мультимодальному розумінні, здатному обробляти зображення як безперервний вхідний сигнал. Щоб розширити його функціональність для мультимодальної генерації, дослідники представили генеративні Vokens, спеціально розроблені для виведення візуальних функцій. Крім того, вони також застосували ефективні параметрами методи тонкого налаштування в рамках великої мовної моделі (LLM) для мультимодального навчання результату.

Генерація мультимодального виходу

Щоб точно узгодити генеративні токени з генеративними моделями, ми розробили компактний модуль відображення для відповідності розмірності та включили кілька контрольованих втрат, включаючи втрату текстового простору та втрату моделі прихованої дифузії. Втрата текстового простору допомагає моделі вивчити правильну локалізацію токенів, тоді як втрата прихованої дифузії безпосередньо вирівнює токени з відповідними візуальними характеристиками. Оскільки особливості генеративних символів напряму керуються зображеннями, цей метод не потребує вичерпних описів зображень, уможливлюючи навчання без опису.

Стратегія навчання

Враховуючи те, що між текстовою областю та областю зображення є незначний зсув домену, дослідники виявили, що навчання безпосередньо на обмеженому наборі даних тексту та зображень із перемежуванням може призвести до неузгодженості та погіршення якості зображення.

Тому вони застосували дві різні стратегії навчання, щоб полегшити цю проблему. Перша стратегія передбачає використання методів завантаження без класифікаторів для підвищення ефективності згенерованих токенів протягом усього процесу розповсюдження; друга стратегія розгортається у два етапи: початковий етап попереднього навчання, зосереджений на грубому вирівнюванні функцій, за яким слідує етап тонкого налаштування. на комплексному навчанні ознак.

Експеримент і результати

Щоб оцінити ефективність моделі, дослідники провели серію оцінок за кількома критеріями. Експеримент спрямований на вирішення кількох ключових питань:

  • Чи може MiniGPT-5 створювати правдоподібні зображення та розумний текст?
  • Як MiniGPT-5 працює порівняно з іншими моделями SOTA в одно- та багатораундових завданнях генерації візуальної мови з чергуванням?
  • Як дизайн кожного модуля впливає на загальну продуктивність?

Щоб оцінити продуктивність моделі на різних тестах на різних етапах навчання, зразки кількісного аналізу MiniGPT-5 показані на малюнку 3 нижче:

Оцінка тут охоплює як візуальні (метрики, пов’язані із зображеннями), так і лінгвістичні (текстові показники) домени, щоб продемонструвати загальність і надійність запропонованої моделі.

Оцінка VIST Final-Step Assessment

Перший набір експериментів передбачає одноетапну оцінку, тобто генерацію відповідних зображень на основі моделі на останньому кроці, і результати наведені в таблиці 1.

MiniGPT-5 перевершує точно налаштований SD 2 у всіх трьох налаштуваннях. Примітно, що показник CLIP моделі MiniGPT-5 (LoRA) стабільно перевершує інші варіанти в різних типах, особливо при поєднанні зображень і тексту. З іншого боку, оцінка FID підкреслює конкурентоспроможність моделі MiniGPT-5 (префікс), вказуючи на те, що може існувати компроміс між якістю вбудовування зображення (що відображається в оцінці CLIP) і різноманітністю та автентичністю зображення (що відображається бал FID). Порівняно з моделлю, навченою безпосередньо на VIST без включення етапу одномодальної реєстрації (MiniGPT-5 без UAS), хоча модель зберігає здатність генерувати значущі зображення, якість і послідовність зображення значно знижуються. Це спостереження підкреслює важливість двоетапної стратегії навчання.

Багатоетапна оцінка VIST

У більш детальній і всебічній оцінці дослідники систематично надавали моделі попередній історичний контекст і згодом оцінювали отримані зображення та наративи на кожному кроці.

Таблиці 2 і 3 підсумовують результати цих експериментів, підсумовуючи показники зображення та мови відповідно. Експериментальні результати показують, що MiniGPT-5 здатний генерувати узгоджені високоякісні зображення, використовуючи довгі горизонтальні мультимодальні вхідні дані в усіх даних, не впливаючи на можливості мультимодального розуміння вихідної моделі. Це підкреслює ефективність MiniGPT-5 у різних середовищах.

Оцінка VIST Human Assessment

Як показано в таблиці 4, MiniGPT-5 згенерував більш відповідні текстові розповіді в 57,18% випадків, забезпечив кращу якість зображення в 52,06% випадків і згенерував більш узгоджений багаторежимний режим у 57,62% виведення статусу. Порівняно з двоступеневою базовою лінією, яка використовує оповідання тексту в зображення без умовного нахилу, ці дані чітко демонструють його потужніші можливості мультимодального генерування.

MMDialog кілька раундів оцінювання

Результати наведено в таблиці 5. MiniGPT-5 перевершує базову модель Divter у створенні більш точних текстових відповідей. Незважаючи на те, що створені зображення мають подібну якість, MiniGPT-5 перевершує базову модель у кореляції ММ, що вказує на те, що він може краще навчитися правильно позиціонувати генерацію зображень і генерувати високопослідовні мультимодальні відповіді.

Який ефект? Давайте подивимося на результат MiniGPT-5. На рисунку 7 нижче показано порівняння базових моделей на наборах перевірки MiniGPT-5 і CC3M.

На малюнку 8 нижче показано порівняння між MiniGPT-5 і базовою моделлю в наборі перевірки VIST.

На малюнку 9 нижче показано порівняння між MiniGPT-5 і базовою моделлю на тестовому наборі MMDialog.

Щоб дізнатися більше про дослідження, зверніться до оригінальної статті.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити