Meta переосмислює мультимодальність! Випускники Пекінського університету працюють разом, графічна модель Вінсента з 7 мільярдами параметрів перевершує дифузію
Випускники Пекінського університету працюють разом, Meta випускає першу мультимодальну модель в історії! Модель 7B перемогла Diffusion, і проблема ідеального малювання рукою була ідеально вирішена.
Мета знову тут!
Щойно Meta запустила мультимодальну модель на основі Transformer — CM3leon, яка здійснила абсолютний прорив у сфері графів Вінсента та розуміння зображень і її можна назвати найкращою у своєму роді.
Крім того, таке поєднання кількох модальностей в єдину модель є безпрецедентним у раніше розкритих системах ШІ.
Очевидно, це дослідження Meta визначає новий стандарт мультимодального ШІ, який вказує на те, що система ШІ може повністю вільно перемикатися в таких завданнях, як розуміння, редагування та генерація зображень, відео та текстів.
Тим часом, запуск CM3leon офіційно знаменує собою перший випадок, коли авторегресійна модель відповідає продуктивності провідних моделей генеративної дифузії за ключовими тестами.
Адреса паперу:
Раніше трьома зірковими моделями, які привернули найбільшу увагу в області графів Vincent, були Stable Diffusion, DALL-E і Midjourney. Техніка діаграми Вінсена в основному спирається на модель дифузії.
Але революційне значення CM3leon полягає в тому, що він використовує зовсім іншу технологію — модель авторегресії на основі токенизатора.
Результати показують, що авторегресійна модель на основі токенізера не тільки ефективніша за метод на основі дифузійної моделі, але також досягає SOTA в області графів Вінсента, а обсяг тренувальних розрахунків у п’ять разів менший, ніж попередній метод. на основі Трансформера!
Будьте готові, насувається хвиля крутих ефектів
Просто дивлячись на сирі показники продуктивності нічого не можна пояснити.
Де CM3leon справді сяє, так це в обробці складніших завдань із підказок і редагування зображень.
Точно відтворені зображення з приголомшливими результатами
Наприклад, він може точно відтворювати зображення за такими сигналами, як «маленький кактус у Сахарі в солом’яному капелюшку та неонових окулярах».
Довільні, редагуйте зображення як вам подобається
CM3leon також має унікальну можливість редагувати існуючі зображення на основі текстових інструкцій у вільній формі, наприклад, змінювати колір неба або додавати об’єкти в певних місцях.
Наведені вище функції значно перевищують ефект, який можуть досягти такі моделі, як DALL-E 2.
Безпрецедентна мультимодальна єдина модель
Універсальна архітектура CM3leon дозволяє вільно та плавно переходити між текстовими, зображеннями та композиційними завданнями.
На додаток до можливостей діаграм Вінсента, CM3leon може створювати анотації для зображень, відповідати на запитання щодо вмісту зображень і навіть створювати зображення з текстових описів обмежувальних рамок і карт сегментації.
Таке поєднання модальностей в єдину модель є безпрецедентним у раніше розкритих системах ШІ.
: Що тримає собака? Модель відповіла: палка.
: детально описує дане зображення. Модель відповідає: На цьому зображенні собака тримає палицю в роті. На землі трава. На задньому плані зображення є дерева.
Враховуючи текстовий опис сегментації обмежувальної рамки зображення, вказуючи, де на зображенні потрібні пул і дзеркало, CM3leon може точно створити відповідне зображення.
Надвисока роздільна здатність
Окрему платформу надвисокої роздільної здатності можна інтегрувати з виходом CM3leon, що призведе до різкого збільшення роздільної здатності та деталізації.
Введіть «невеликий круглий острів посеред озера з лісами навколо озера, високий контраст»——
Вирішіть проблему AI Painter
CM3leon легко вирішив навіть давню проблему штучного інтелекту, яка не могла малювати руки.
Авторегресійна модель вперше перевершила дифузію?
У сфері діаграм Вінсента, які стали популярними в останні роки, Midjourney, DALL-E 2 і Stable Diffusion використовують технологію дифузії. Хоча техніка дифузії дає приголомшливі результати, вона потребує обчислень, що робить її інтенсивною, дорогою у використанні та часто не має достатньої швидкості, необхідної для програм реального часу.
Цікаво, що кілька років тому OpenAI хотів дослідити можливість створення Transformer як зображення за допомогою моделі Image GPT. Але врешті-решт він відмовився від цієї ідеї на користь Diffusion.
CM3leon має зовсім інший підхід. Як модель на основі Transformer, вона використовує механізм уваги, щоб зважити релевантність вхідних даних (тексту чи зображень).
Ця архітектурна відмінність дозволяє CM3leon досягати швидшої швидкості навчання та кращого розпаралелювання, таким чином, є більш ефективним, ніж традиційні методи на основі дифузії.
Маючи лише один TPU, CM3leon ефективно навчається на наборі даних зображень і досягає оцінки FID 4,88 на наборі даних MS-COCO, перевершуючи модель Google для перетворення тексту в зображення Parti.
При цьому ефективність CM3leon більш ніж у 5 разів перевищує ефективність аналогічної архітектури Transformer.
Причиною такого успіху CM3leon можна пояснити його унікальну архітектуру та метод навчання.
Ключем до його потужної продуктивності є техніка контрольованого тонкого налаштування (SFT).
Раніше SFT використовувався для ефективного навчання моделей генерації тексту, таких як ChatGPT, але Meta стверджує, що це також може бути корисним у застосуванні до зображень.
Фактично, точне налаштування інструкцій покращило продуктивність CM3Leon не лише у створенні зображень, але й у написанні анотацій до зображень, дозволяючи відповідати на запитання про зображення та покращувати продуктивність зображень, дотримуючись текстових інструкцій, таких як «Змініть колір неба на яскраво-синій." ”), щоб редагувати зображення.
CM3leon використовує лише архітектуру декодер-трансформер, подібну до традиційних текстових моделей, але додає можливість обробки тексту та зображень.
Процес навчання передбачає розширення пошуку, а також точне налаштування інструкцій для різних завдань створення зображень і тексту.
Застосовуючи крос-модальні контрольовані методи тонкого налаштування, Meta значно покращує продуктивність CM3leon у анотаціях зображень, візуальній перевірці якості та редагуванні тексту.
Хоча CM3leon навчається лише на 3 мільярдах текстових токенів, він відповідає або навіть перевершує результати інших моделей, навчених до 100 мільярдів токенів.
Будучи першою мультимодальною моделлю, налаштованою подібно до моделей текстової мови, Meta включає в себе широкомасштабний етап попереднього навчання з доповненим пошуком і другий етап багатозадачної контрольованої тонкої настройки (SFT) у CM3leon.
Як поводиться CM3leon
Завдяки можливостям CM3leon інструменти генерації зображень можуть створювати більш послідовні зображення, які краще відповідають вхідним сигналам.
Нижче наведено демонстрацію можливостей CM3leon у різних завданнях, які виконуються однією моделлю:
генерація тексту в зображення
Редагування текстового зображення (наприклад, «змінити колір неба на яскраво-блакитний») є складним, оскільки вимагає від моделі розуміння як текстових інструкцій, так і візуального вмісту.
Особливо, коли йдеться про складні об’єкти або коли підказка містить кілька обмежень, які повинні бути присутніми у виводі.
З тексту підказки з висококомпозиційною структурою CM3leon може створити зображення для наслідування.
(1) Маленький кактус у солом’яному капелюшку та неонових сонцезахисних окулярах у пустелі Сахара (2) Людська рука крупним планом (3) Головний герой аніме єнот готується до епічної битви з мечем катана (4) Зображено у стилі фентезі Знак «Стоп» з написом «1991».
Редагування зображень на основі тексту
Отримавши зображення та текстову підказку, CM3leon може редагувати зображення відповідно до інструкцій у тексті.
Через загальність моделі CM3leon це досягається за допомогою тієї ж моделі, що й інші завдання, на відміну від попередніх моделей (таких як InstructPix2Pix), які були лише налаштовані для редагування текстових зображень.
У той же час модель CM3leon також може генерувати короткі або довгі описи та відповідати на запитання про зображення на основі серії різних підказок.
Візьміть каштан.
підказка:
Питання: Що спільного між цими двома предметами?
Контекст: Виберіть найкращу відповідь.
Варіанти: (А) Блискучий (Б) Солоний
Відповідь: Давайте поміркуємо крок за кроком:
Вихід CM3Leon:
Продумайте кожен предмет. Чіпси солоні. Кренделі солоні. Отже, відповідь (B).
- підказка:
Детально опишіть усі об’єкти на заданому зображенні.
Вихід CM3Leon:
Вуличний знак розташований на металевому стовпі. Логотип синього кольору з білим текстом. На стовпі горить червоне світло. Небо яскраво-блакитне. На вулиці стоять припарковані машини. Обабіч вулиці ростуть дерева. Обабіч вулиці розташовані забудови.
Подібним чином CM3leon може легко обробляти наступні «запитання та відповіді із зображеннями».
Щоб дізнатися більше про CM3leon, Meta емпірично оцінює точно налаштовані моделі інструкцій щодо створення підписів до зображень і завдань із візуальними відповідями на запитання та порівнює їх із попередніми тестами SOTA.
У порівнянні з Flamingo (100B) і OpenFlamingo (40B), текстових даних моделі CM3leon значно менше (близько 3B токенів).
Але з точки зору опису зображення MS-COCO та відповідей на запитання VQA2 CM3leon досяг тієї ж продуктивності, що й OpenFlamingo з нульовою вибіркою, і навіть випередив Flamingo майже на 10 відсотків у завданні VizWiz.
Редагування зображень за структурою
Кероване структурним редагуванням зображень спрямоване на розуміння та інтерпретацію наданих текстових інструкцій разом із структурною інформацією чи інформацією про макет.
Це дає змогу моделям CM3leon створювати візуально послідовні та відповідні контексту компіляції зображень, дотримуючись наданих структурних інструкцій або інструкцій щодо компонування.
На зображенні, яке містить лише сегменти (без текстових категорій), згенеруйте зображення. Вхідні дані тут представляють зображення, з якого витягнуто сегментацію.
Супер роздільна здатність
На додаток до цього, існує загальний трюк у сфері генерації зображень - використання окремо навченого етапу супер-роздільності для генерації зображень з вищою роздільною здатністю з вихідної вихідної моделі.
Для цього типу завдань генерації тексту в зображення CM3leon також працює дуже добре.
(1) Чашка димлячої кави з горами на задньому плані, відпочиваючи на дорозі
(2) На заході сонця красиве і величне шосе
(3) Круглий острів у центрі озера, оточений лісами
І якесь покоління стилю «фентезі».
(1) Черепаха, що плаває під водою (2) Слон, що плаває під водою (2) Отара овець
Як зібрати CM3Leon
Структура
З точки зору архітектури, CM3Leon використовує Transformer лише для декодера, схожий на зрілу текстову модель.
Але різниця в тому, що CM3Leon може вводити та генерувати текст і зображення.
потяг
Застосувавши технологію вдосконалення навчального пошуку, запропоновану в статті «Retri-Augmented Multimodal Language Modeling», Meta значно покращує ефективність і керованість моделі CM3Leon.
У той же час Meta також налаштувала модель CM3Leon для різних завдань генерації зображень і тексту.
Зліва: загальні входи для різних завдань; праворуч: відповідні виходи моделі. Під час навчання Meta об’єднує вхідні та вихідні дані моделі та тренується з тією ж метою, що й на етапі попереднього навчання.
Оскільки індустрія штучного інтелекту продовжує розвиватися, такі генеративні моделі, як CM3Leon, стають все складнішими.
Ці моделі вивчають взаємозв’язок між баченням і текстом, навчаючись на мільйонах прикладів зображень, але вони також можуть відображати упередження, наявні в навчальних даних.
Тому Meta використовує ліцензований набір даних для навчання CM3Leon.
Результати також демонструють, що CM3Leon все ще досягає високої продуктивності, хоча розподіл даних значно відрізняється від попередніх моделей.
У зв’язку з цим Meta сподівається, що спільними зусиллями всіх вдасться створити більш точну, чесну та справедливу модель.
Прокладаючи шлях для мультимодальних мовних моделей
Загалом Meta вважає, що чудова продуктивність CM3Leon у різних завданнях є важливим кроком до більш реалістичного створення та розуміння зображень.
І така модель зрештою може допомогти підвищити креативність і досягти кращих застосувань у метавсесвіті.
Про автора
Лілі Ю, Боуен Ши та Рамакант Пасунуру є співавторами статті.
Серед них Лілі Ю отримала ступінь бакалавра на факультеті фізики Пекінського університету та ступінь доктора електротехніки та комп’ютерних наук в MIT.
Література:
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Meta переосмислює мультимодальність! Випускники Пекінського університету працюють разом, графічна модель Вінсента з 7 мільярдами параметрів перевершує дифузію
Джерело: Xinzhiyuan
Мета знову тут!
Щойно Meta запустила мультимодальну модель на основі Transformer — CM3leon, яка здійснила абсолютний прорив у сфері графів Вінсента та розуміння зображень і її можна назвати найкращою у своєму роді.
Крім того, таке поєднання кількох модальностей в єдину модель є безпрецедентним у раніше розкритих системах ШІ.
Тим часом, запуск CM3leon офіційно знаменує собою перший випадок, коли авторегресійна модель відповідає продуктивності провідних моделей генеративної дифузії за ключовими тестами.
Раніше трьома зірковими моделями, які привернули найбільшу увагу в області графів Vincent, були Stable Diffusion, DALL-E і Midjourney. Техніка діаграми Вінсена в основному спирається на модель дифузії.
Але революційне значення CM3leon полягає в тому, що він використовує зовсім іншу технологію — модель авторегресії на основі токенизатора.
Результати показують, що авторегресійна модель на основі токенізера не тільки ефективніша за метод на основі дифузійної моделі, але також досягає SOTA в області графів Вінсента, а обсяг тренувальних розрахунків у п’ять разів менший, ніж попередній метод. на основі Трансформера!
Будьте готові, насувається хвиля крутих ефектів
Просто дивлячись на сирі показники продуктивності нічого не можна пояснити.
Де CM3leon справді сяє, так це в обробці складніших завдань із підказок і редагування зображень.
Точно відтворені зображення з приголомшливими результатами
Наприклад, він може точно відтворювати зображення за такими сигналами, як «маленький кактус у Сахарі в солом’яному капелюшку та неонових окулярах».
CM3leon також має унікальну можливість редагувати існуючі зображення на основі текстових інструкцій у вільній формі, наприклад, змінювати колір неба або додавати об’єкти в певних місцях.
Наведені вище функції значно перевищують ефект, який можуть досягти такі моделі, як DALL-E 2.
Універсальна архітектура CM3leon дозволяє вільно та плавно переходити між текстовими, зображеннями та композиційними завданнями.
На додаток до можливостей діаграм Вінсента, CM3leon може створювати анотації для зображень, відповідати на запитання щодо вмісту зображень і навіть створювати зображення з текстових описів обмежувальних рамок і карт сегментації.
Таке поєднання модальностей в єдину модель є безпрецедентним у раніше розкритих системах ШІ.
: Що тримає собака? Модель відповіла: палка.
: детально описує дане зображення. Модель відповідає: На цьому зображенні собака тримає палицю в роті. На землі трава. На задньому плані зображення є дерева.
Окрему платформу надвисокої роздільної здатності можна інтегрувати з виходом CM3leon, що призведе до різкого збільшення роздільної здатності та деталізації.
Введіть «невеликий круглий острів посеред озера з лісами навколо озера, високий контраст»——
CM3leon легко вирішив навіть давню проблему штучного інтелекту, яка не могла малювати руки.
Авторегресійна модель вперше перевершила дифузію?
У сфері діаграм Вінсента, які стали популярними в останні роки, Midjourney, DALL-E 2 і Stable Diffusion використовують технологію дифузії. Хоча техніка дифузії дає приголомшливі результати, вона потребує обчислень, що робить її інтенсивною, дорогою у використанні та часто не має достатньої швидкості, необхідної для програм реального часу.
Цікаво, що кілька років тому OpenAI хотів дослідити можливість створення Transformer як зображення за допомогою моделі Image GPT. Але врешті-решт він відмовився від цієї ідеї на користь Diffusion.
CM3leon має зовсім інший підхід. Як модель на основі Transformer, вона використовує механізм уваги, щоб зважити релевантність вхідних даних (тексту чи зображень).
Ця архітектурна відмінність дозволяє CM3leon досягати швидшої швидкості навчання та кращого розпаралелювання, таким чином, є більш ефективним, ніж традиційні методи на основі дифузії.
Маючи лише один TPU, CM3leon ефективно навчається на наборі даних зображень і досягає оцінки FID 4,88 на наборі даних MS-COCO, перевершуючи модель Google для перетворення тексту в зображення Parti.
При цьому ефективність CM3leon більш ніж у 5 разів перевищує ефективність аналогічної архітектури Transformer.
Ключем до його потужної продуктивності є техніка контрольованого тонкого налаштування (SFT).
Раніше SFT використовувався для ефективного навчання моделей генерації тексту, таких як ChatGPT, але Meta стверджує, що це також може бути корисним у застосуванні до зображень.
Фактично, точне налаштування інструкцій покращило продуктивність CM3Leon не лише у створенні зображень, але й у написанні анотацій до зображень, дозволяючи відповідати на запитання про зображення та покращувати продуктивність зображень, дотримуючись текстових інструкцій, таких як «Змініть колір неба на яскраво-синій." ”), щоб редагувати зображення.
CM3leon використовує лише архітектуру декодер-трансформер, подібну до традиційних текстових моделей, але додає можливість обробки тексту та зображень.
Процес навчання передбачає розширення пошуку, а також точне налаштування інструкцій для різних завдань створення зображень і тексту.
Застосовуючи крос-модальні контрольовані методи тонкого налаштування, Meta значно покращує продуктивність CM3leon у анотаціях зображень, візуальній перевірці якості та редагуванні тексту.
Хоча CM3leon навчається лише на 3 мільярдах текстових токенів, він відповідає або навіть перевершує результати інших моделей, навчених до 100 мільярдів токенів.
Будучи першою мультимодальною моделлю, налаштованою подібно до моделей текстової мови, Meta включає в себе широкомасштабний етап попереднього навчання з доповненим пошуком і другий етап багатозадачної контрольованої тонкої настройки (SFT) у CM3leon.
Як поводиться CM3leon
Завдяки можливостям CM3leon інструменти генерації зображень можуть створювати більш послідовні зображення, які краще відповідають вхідним сигналам.
Нижче наведено демонстрацію можливостей CM3leon у різних завданнях, які виконуються однією моделлю:
генерація тексту в зображення
Редагування текстового зображення (наприклад, «змінити колір неба на яскраво-блакитний») є складним, оскільки вимагає від моделі розуміння як текстових інструкцій, так і візуального вмісту.
Особливо, коли йдеться про складні об’єкти або коли підказка містить кілька обмежень, які повинні бути присутніми у виводі.
З тексту підказки з висококомпозиційною структурою CM3leon може створити зображення для наслідування.
Редагування зображень на основі тексту
Отримавши зображення та текстову підказку, CM3leon може редагувати зображення відповідно до інструкцій у тексті.
Через загальність моделі CM3leon це досягається за допомогою тієї ж моделі, що й інші завдання, на відміну від попередніх моделей (таких як InstructPix2Pix), які були лише налаштовані для редагування текстових зображень.
Візьміть каштан.
Питання: Що спільного між цими двома предметами?
Контекст: Виберіть найкращу відповідь.
Варіанти: (А) Блискучий (Б) Солоний
Відповідь: Давайте поміркуємо крок за кроком:
Продумайте кожен предмет. Чіпси солоні. Кренделі солоні. Отже, відповідь (B).
Детально опишіть усі об’єкти на заданому зображенні.
Вуличний знак розташований на металевому стовпі. Логотип синього кольору з білим текстом. На стовпі горить червоне світло. Небо яскраво-блакитне. На вулиці стоять припарковані машини. Обабіч вулиці ростуть дерева. Обабіч вулиці розташовані забудови.
У порівнянні з Flamingo (100B) і OpenFlamingo (40B), текстових даних моделі CM3leon значно менше (близько 3B токенів).
Але з точки зору опису зображення MS-COCO та відповідей на запитання VQA2 CM3leon досяг тієї ж продуктивності, що й OpenFlamingo з нульовою вибіркою, і навіть випередив Flamingo майже на 10 відсотків у завданні VizWiz.
Кероване структурним редагуванням зображень спрямоване на розуміння та інтерпретацію наданих текстових інструкцій разом із структурною інформацією чи інформацією про макет.
Це дає змогу моделям CM3leon створювати візуально послідовні та відповідні контексту компіляції зображень, дотримуючись наданих структурних інструкцій або інструкцій щодо компонування.
На зображенні, яке містить лише сегменти (без текстових категорій), згенеруйте зображення. Вхідні дані тут представляють зображення, з якого витягнуто сегментацію.
На додаток до цього, існує загальний трюк у сфері генерації зображень - використання окремо навченого етапу супер-роздільності для генерації зображень з вищою роздільною здатністю з вихідної вихідної моделі.
Для цього типу завдань генерації тексту в зображення CM3leon також працює дуже добре.
(2) На заході сонця красиве і величне шосе
(3) Круглий острів у центрі озера, оточений лісами
І якесь покоління стилю «фентезі».
Як зібрати CM3Leon
Структура
З точки зору архітектури, CM3Leon використовує Transformer лише для декодера, схожий на зрілу текстову модель.
Але різниця в тому, що CM3Leon може вводити та генерувати текст і зображення.
потяг
Застосувавши технологію вдосконалення навчального пошуку, запропоновану в статті «Retri-Augmented Multimodal Language Modeling», Meta значно покращує ефективність і керованість моделі CM3Leon.
У той же час Meta також налаштувала модель CM3Leon для різних завдань генерації зображень і тексту.
Оскільки індустрія штучного інтелекту продовжує розвиватися, такі генеративні моделі, як CM3Leon, стають все складнішими.
Ці моделі вивчають взаємозв’язок між баченням і текстом, навчаючись на мільйонах прикладів зображень, але вони також можуть відображати упередження, наявні в навчальних даних.
Тому Meta використовує ліцензований набір даних для навчання CM3Leon.
Результати також демонструють, що CM3Leon все ще досягає високої продуктивності, хоча розподіл даних значно відрізняється від попередніх моделей.
У зв’язку з цим Meta сподівається, що спільними зусиллями всіх вдасться створити більш точну, чесну та справедливу модель.
Прокладаючи шлях для мультимодальних мовних моделей
Загалом Meta вважає, що чудова продуктивність CM3Leon у різних завданнях є важливим кроком до більш реалістичного створення та розуміння зображень.
І така модель зрештою може допомогти підвищити креативність і досягти кращих застосувань у метавсесвіті.
Про автора
Лілі Ю, Боуен Ши та Рамакант Пасунуру є співавторами статті.
Серед них Лілі Ю отримала ступінь бакалавра на факультеті фізики Пекінського університету та ступінь доктора електротехніки та комп’ютерних наук в MIT.