У генерації зображень та відео мовна модель вперше перемогла дифузійну модель, а токенізатор є ключовим

Чому мовні моделі відстають від дифузійних моделей з точки зору візуальної генерації? Дослідження Google, CMU показує, що токенізатор є ключовим.

Джерело зображення: Створено Unbounded AI

Великі мовні моделі (LLM або LM) починали генерувати мови, але з часом вони стали здатними генерувати контент у різних модальностях і стали домінуючими в аудіо, мові, генерації коду, медичних додатках, робототехніці тощо.

Звичайно, LM також може генерувати зображення та відео. Під час цього процесу пікселі зображення відображаються візуальними токенізаторами в серію дискретних токенів. Потім ці токени подаються в трансформатор LM і використовуються для генеративного моделювання так само, як словниковий запас. Незважаючи на те, що LM досягла значних успіхів у візуальній генерації, LM все ще працює гірше, ніж дифузійні моделі. Наприклад, при оцінці на наборі даних ImageNet, золотому еталоні генерації зображень, найкраща мовна модель показала себе на 48% гірше, ніж дифузійна модель (FID 3,41 проти 1,79 при генерації зображень з роздільною здатністю 256ˆ256).

Чому мовні моделі відстають від дифузійних моделей з точки зору візуальної генерації? Дослідники з Google, CMU, вважають, що основною причиною є відсутність хорошого візуального представлення, подібного до нашої природної мовної системи, для ефективного моделювання візуального світу. Щоб підтвердити цю гіпотезу, вони провели дослідження.

Посилання на папір:

Це дослідження показує, що з хорошим візуальним токенізатором мовні моделі маскування перевершують дифузійні моделі SOTA з точки зору генеративної точності та ефективності тестів зображень та відео для тих самих навчальних даних, порівнянних розмірів моделей та бюджету на навчання. Це перший доказ того, що мовна модель перевершує дифузійну модель у культовому бенчмарку ImageNet.

Слід підкреслити, що мета дослідників полягає не в тому, щоб стверджувати, чи є мовна модель кращою за інші моделі, а в тому, щоб сприяти дослідженню методів візуальної токенізації LLM. Принципова відмінність LLM від інших моделей, таких як дифузійні моделі, полягає в тому, що LLM використовує дискретний латентний формат, тобто токени, отримані від візуалізації токенізаторів. Це дослідження показує, що цінність цих дискретних візуальних токенів не слід ігнорувати через їхні такі переваги:

  1. Сумісність з LLM. Основна перевага представлення токенів полягає в тому, що він має ту саму форму, що й мовний токен, що дозволяє йому безпосередньо скористатися перевагами оптимізації, яку спільнота робила протягом багатьох років для розробки LLM, включаючи більш швидке навчання та висновки, досягнення в інфраструктурі моделей, способи масштабування моделей та інновації, такі як оптимізація GPU/TPU. Об'єднання бачення та мови в одному просторі токенів може закласти основу для справді мультимодального LLM, який можна зрозуміти, згенерувати та аргументувати в нашому візуальному середовищі.

  2. Представлення стиснення. Дискретні токени можуть надати новий погляд на стиснення відео. Візуальні токени можна використовувати як новий формат стиснення відео для зменшення дискового сховища та пропускної здатності, зайнятої даними під час передачі через Інтернет. На відміну від стиснених пікселів RGB, ці токени можуть бути передані безпосередньо в генеративну модель, минаючи традиційні кроки декомпресії та потенційного кодування. Це може прискорити обробку створення відеододатків, що особливо корисно в сценаріях периферійних обчислень.

  3. Переваги візуального розуміння. Попередні дослідження показали, що дискретні токени цінні як цілі попереднього навчання в самоконтрольованому репрезентативному навчанні, як обговорювалося в BEiT і BEVT. Крім того, дослідження показало, що використання токенів як вхідних даних моделі покращує надійність та узагальнення.

У цій статті дослідники пропонують відеотокенізатор під назвою MAGVIT-v2, який має на меті зіставити відео (і зображення) у компактні дискретні токени.

Модель базується на відеотокенізаторі SOTA – MAGVIT у рамках VQ-VAE. Виходячи з цього, дослідники пропонують дві нові технології: 1) новий метод кількісної оцінки без пошуку, який дозволяє вивчати велику кількість слів для підвищення якості генерації мовних моделей; 2) Шляхом широкого емпіричного аналізу вони виявили модифікації MAGVIT, які не тільки покращують якість збірки, але й дозволяють токенізувати зображення та відео за допомогою спільного словника.

Експериментальні результати показують, що нова модель перевершує попередній найефективніший відеотокенізатор MAGVIT у трьох ключових областях. По-перше, нова модель значно покращує якість збірки MAGVIT, освіжаючи SOTA на поширених іміджевих і відеобенчмарках. По-друге, дослідження користувачів показали, що якість його стиснення перевищує якість MAGVIT і нинішнього стандарту стиснення відео HEVC. Більш того, його можна порівняти з відеокодеком нового покоління VVC. Нарешті, дослідники показали, що їхній новий токен краще впорався із завданням на розуміння відео з двома налаштуваннями та трьома наборами даних порівняно з MAGVIT.

Впровадження методу

У цьому документі представлено новий токенізатор відео, який має на меті динамічно відображати час-простір у візуальних сценах у компактні дискретні токени, придатні для мовних моделей. Крім того, метод ґрунтується на MAGVIT.

Потім дослідження висвітлило два нові дизайни: квантування без пошуку (LFQ) та вдосконалення моделі токенізатора.

Без квантування підстановки

Останнім часом модель VQ-VAE досягла великих успіхів, але одним з недоліків цього методу є те, що взаємозв'язок між поліпшенням якості реконструкції і подальшою якістю генерації не ясний. Багато хто помилково думає, що поліпшення реконструкції рівноцінно поліпшенню генерації мовних моделей, наприклад, розширення словникового запасу може поліпшити якість реконструкції. Однак це покращення стосується лише генерації малого словникового запасу, що може зашкодити продуктивності мовної моделі, коли словниковий запас дуже великий.

У цій статті розмір вбудовування кодової книги VQ-VAE зменшено до 0, який є кодовою книгою

замінюється набором цілих чисел

до нього

На відміну від моделі VQ-VAE, ця нова конструкція повністю усуває потребу у вбудованих пошуках, звідси й назва LFQ. У цій роботі показано, що LFQ може покращити якість генерації мовних моделей за рахунок збільшення словникового запасу. Як показано на синій кривій на рисунку 1, як реконструкція, так і генерація покращуються зі збільшенням словникового запасу — особливість, якої немає в сучасних підходах VQ-VAE.

Поки що існує багато методів LFQ, але в цій статті розглядається простий варіант. Зокрема, латентний простір LFQ розкладається на декартові добутки одновимірних змінних, тобто

。 Припустимо, задано вектор ознак

, кількісно представляючи кожен вимір Q (z), отриманий з наступного:

Для LFQ індекс токена для q (z) дорівнює:

Крім того, ця стаття також додає штраф за ентропію під час тренувань:

Покращення моделі візуального токенізатора

Об'єднані зображення - токенізація відео. Для того, щоб створити об'єднаний токенізатор зображення-відео, потрібен новий дизайн. У цій статті показано, що 3D-CNN працюють краще, ніж просторові трансформатори.

У цій статті досліджуються два можливі варіанти дизайну, такі як рисунок 2b, що поєднує C-ViViT з MAGVIT; На малюнку 2c використовується тимчасова причинна 3D згортка замість звичайної 3D CNN.

У таблиці 5a емпірично порівнюється дизайн на рисунку 2 і виявляється, що причинно-наслідкові 3D CNN працюють найкраще.

На додаток до використання причинно-наслідкового 3D-шару CNN, були внесені інші архітектурні модифікації для покращення продуктивності MAGVIT, такі як зміна кодера з середнього об'єднання на ступінчасту згортку; Іншим прикладом є додавання адаптивного рівня нормалізації групи перед залишковим блоком кожної роздільної здатності в декодері.

Результати експерименту

Експерименти перевіряють продуктивність токенізатора, запропонованого в цій статті, з трьох частин: генерація відео та зображень, стиснення відео та розпізнавання руху. На малюнку 3 наочно порівнюються результати Tokenizer з попередніми дослідженнями.

Генерація відео. Таблиця 1 показує, що ця модель перевершує всі попередні моделі в обох тестах, демонструючи, що хороший візуальний токенізатор відіграє важливу роль у наданні LM можливості створювати високоякісні відео.

На малюнку 4 представлений якісний зразок моделі.

Генерація зображень. У цій роботі результати генерації зображень MAGVIT-v2 оцінюються за стандартних налаштувань класу ImageNet. Результати показують, що запропонована модель перевершує найефективнішу дифузійну модель з точки зору якості вибірки (ID та IS) та ефективності часу висновків (крок вибірки).

На малюнку 5 показана візуалізація.

Стиснення відео. Результати наведені в таблиці 3, і модель перевершує MAGVIT за всіма показниками та перевершує всі методи на LPIPS.

Відеорозуміння. Як показано в таблиці 4, MAGVIT-v2 перевершує попередній найкращий MAGVIT у цих оцінках.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити