У сфері мультимодальних (візуальна мова) великих моделей, конкуруючи за параметрами, щоб виграти продуктивність, гонитва за меншими параметрами, більшою швидкістю та сильнішою продуктивністю є іншим шляхом дослідження.
Джерело зображення: Створено Unbounded AI
В епоху великих моделей параметри моделей візуальної мови (VLM) розширилися до десятків або навіть сотень мільярдів, завдяки чому продуктивність продовжує зростати. У той же час менші моделі, як і раніше, важливі, вони простіші в навчанні та обслуговуванні, більш екологічні та забезпечують швидші цикли досліджень для проектування моделей.
У цій сфері Google Research минулого року запустив модель під назвою PaLI (Pathways Language and Image). Як мультимодальна велика модель, однією з ключових структур PaLI є повторне використання великих одномодальних магістралей для мовного та візуального моделювання, повторне використання mT5-XXL з параметрами 13B з точки зору мови, а також ViT-G з параметрами 2B та ViT-e з параметрами 4B з точки зору зору. На той момент PaLI досяг кращої продуктивності, ніж більшість старих і нових моделей.
З тих пір Google продовжує зосереджуватися на моделюванні меншого масштабу, і нещодавно запропонував PaLI-3, модель третього покоління серії PaLI. За допомогою попередньо навченої базової моделі лише з параметрами 5B вони оптимізували метод навчання та досягли конкурентоспроможних і нових результатів SOTA на кількох тестах VLM.
Метод складається з трьох основних частин, а саме: порівняльного попереднього навчання кодерів зображень на текстових даних зображень у веб-масштабі, покращеного гібридного набору даних для мультимодального навчання PaLI та навчання з вищою роздільною здатністю.
*Автори з Google Research, Google DeepMind та Google Cloud. *
Паперова адреса:
На малюнку нижче показаний огляд моделі 5B PaLI-3, де зображення індивідуально кодуються у візуальний токен шляхом порівняння попередньо навченої моделі зору 2B SigLIP. Потім разом із запитом ці візуальні токени передаються до трансформатора UL2 структури кодера-декодера 3B, який генерує очікувану відповідь. У цій установці, порівняно з попередньою моделлю PaLI з єдиною попередньо навченою моделлю класифікації, попередньо навчена модель надає значно корисніший токен.
Наскільки це ефективно? PaLI-3 реалізує нову SOTA для завдань, які вимагають візуально позиціонованого розуміння тексту та цільового позиціонування, включаючи 8 завдань для розуміння візуально позиціонованого тексту та завдання сегментації еталонних виразів на наборі даних RefCOCO. PaLI-3 також чудово справляється з цілим рядом засекречених завдань зору.
Крім того, дослідники також провели абляційні експерименти для порівняння з попередньо навченою базовою моделлю ViT, і додатково підтвердили доцільність попередньо навчених візуальних енкодерів на зашумлених текстових даних зображень веб-масштабу, таким чином ставши кращою альтернативою для навчання на секретних даних.
На додаток до моделі 5B PaLI-3, дослідники також використовували нещодавно запропонований метод SigLIP для побудови багатомовної моделі контрастного зору SOTA з параметрами, розширеними до 2B.
Представлення моделі
Архітектура
На вищому рівні архітектура PaLI-3 наслідує архітектуру Chen et al. (2023b; a): Модель ViT кодує зображення як токен і передається в трансформатор структури кодера-декодера разом із текстовими даними, такими як запитання, підказки та інструкції, що призводить до виведення тексту.
Почнемо з візуальної складової. Дослідники використовували метод навчання SigLIP для ініціалізації візуального кістяка PaLI-3 з попередньо навченої моделі ViT-G/14 (параметр близько 2B). Коротше кажучи, вони навчили модель ViT-G/14 для вбудовування зображень і модель трансформатора вбудовування тексту для вбудовування зображень і тексту відповідно, так що двійкові класифікатори з сигмоїдальною перехресною ентропією, використовуючи точковий добуток вбудовування зображення і тексту, можуть точно класифікувати, чи відповідають їх відповідні зображення і текст один одному.
ЦЕ СХОЖЕ НА CLIP AND ALIGN, АЛЕ БІЛЬШ ЕФЕКТИВНЕ, МАСШТАБОВАНЕ ТА НАДІЙНЕ. У той же час, цей метод полягає в попередньому навчанні компонента вбудовування зображень ViT, тому, коли ViT вставляється в PaLI, трансформатор вбудовування тексту відкидається.
Давайте розглянемо повну модель PaLI. Вихідні дані кодера зображень ViT утворюють візуальний маркер перед об'єднанням, лінійно відображаються та додаються до вбудованого вхідного текстового токена. Потім ці маркери передаються попередньо навченій моделі кодера-декодера 3B UL2 для генерації текстового виводу. Введення тексту для моделі зазвичай містить підказки, які описують тип завдання та кодують необхідний текст, введений для завдання.
Навчання
Тренувальний процес складається з декількох етапів.
Фаза 0: Унімодальна попередня підготовка. Згідно з навчальним протоколом SigLIP, кодер зображень має навчальну роздільну здатність 224×224; Кодер-декодер тексту — це модель 3B UL2, навчена відповідно до гібридної процедури шумозаглушення, описаної Tay et al.
Фаза 1: Мультимодальне навчання. Комбінована модель PaLI навчається на мультимодальних завданнях і даних шляхом поєднання кодера зображення з текстовим кодером-декодером, після чого кодер зображення залишається замороженим з роздільною здатністю 224×224. За допомогою евристичної фільтрації якості тексту та використання навчальної цілі SplitCap основні компоненти змішування знову виводяться з набору даних WebLI.
Фаза 2: Підвищення класу. Вхідні дані з високою роздільною здатністю є загальноприйнятим способом підвищення продуктивності, як тому, що можна сприймати більше деталей на зображенні, так і тому, що модель покращується за рахунок збільшення довжини послідовності. Ця стаття збільшує роздільну здатність PaLI-3 за рахунок розморожування кодера зображення, зберігаючи контрольні точки з роздільною здатністю 812×812 і 1064×1064.
Міграція завдань. Нарешті, для кожного окремого завдання (бенчмарку) ця стаття допрацьовує модель PaLI-3 на навчальних даних завдання за допомогою замороженого кодера зображень ViT; Для більшості завдань ця стаття точно налаштовує контрольну точку роздільної здатності 812×812, але для обох завдань на розуміння документа ця стаття збільшує роздільну здатність до 1064×1064.
Експерименти та результати
В експерименті спочатку порівнювалися результати різних моделей ViT в рамках PaLI, і дослідники розглядали дві моделі ViT: Classif і SigLIP.
Результати, наведені в таблиці 1, показують, що в той час як модель SigLIP відстає в лінійній класифікації з невеликою вибіркою, при використанні PaLI-3, модель SigLIP забезпечує скромний виграш у простіших завданнях, таких як субтитри та відповіді на запитання, і величезний виграш у більш складних сценаріях, а саме завданнях на розуміння тексту та простору.
Крім того, дослідники оцінювали PaLI-3 на наборах даних TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Результати наведені в таблиці 2, де PaLI-3 лише на 0,7 бала нижчий за метод SOTA при використанні зовнішньої системи оптичного розпізнавання символів. Однак при відсутності такої зовнішньої системи PaLI-3 на 4,4 бала вище, ніж комбінація всіх методів СОТА. Для TextCaps, TextVQA, InfographicVQA та DocVQA PaLI-3 має перевагу у 8 балів і більше.
Сегментація еталонних виразів
Дослідники розширили PaLI-3, щоб передбачити маски сегментації з виходом, подібним до мови. Для цього вони використовували векторизований варіаційний автокодер (VQ-VAE) Ning et al. (2023). VQ-VAE навчений вивчати 128 токенів масок, а його кодер може позначати маску сегментації 64 × 64 пікселів як 16 токенів маски, які декодер може конвертувати назад.
Дослідники навчили PaLI-3 передбачати єдину маску сегментації, спочатку виводячи 4 координати у вигляді тексту і представляючи їх у вигляді обмежувальних рамок. Далі йдуть 16 жетонів масок, які представляють маски в межах обмежувальної рамки.
З таблиці 1 видно, що контрастна попередня підготовка більш ефективна, ніж класифікаційна попередня підготовка для таких завдань націлювання. З наведеної нижче таблиці 3 видно, що повна модель PaLI-3 дещо перевершує попереднє мистецтво з точки зору сегментації еталонних виразів.
Розуміння зображення
Далі дослідники оцінили PaLI-3 за загальним завданням на розуміння візуальної мови. Як і в попередній роботі, вони не використовували зовнішній модуль OCR, оскільки ці тести рідко включали текст на зображеннях.
Результати показують, що PaLI-3 набагато менший за розмірами порівняно з останніми моделями SOTA, але він демонструє дуже високу продуктивність у цих тестах. Для COCO PaLI-3 перевершує всі моделі, крім BEiT-3 і 17B і 55B PaLI. На VQAv2 і TallyQA PaLI-3 перевершує всі попередні моделі, крім PaLI-X. Для місій OKVQA PaLI-3 відстає лише від PaLM-E (562B) і PaLI-X (55B), але все одно перевершує 32-зарядну модель Flamingo (80B).
Субтитри до відео та запитання та відповіді
У дослідженні було доопрацьовано та оцінено модель PaLI-3 за 4 тестами субтитрів до відео: MSR-VTT, VATEX, ActivityNet Captions та Spoken Moments in Time. Крім того, дослідження показало те ж саме на 3 тестах з відповідями на відеопитання: NExT-QA, MSR-VTT-QA і ActivityNet-QA.
Незважаючи на те, що PaLI-3 не використовував відеодані для попереднього навчання, він досяг чудових результатів QA відео при невеликому розмірі моделі: найсучасніша продуктивність на MSR-VTT-QA і ActivityNet-QA, а також конкурентні результати на NextQA. Постійне вдосконалення якості зображень і відео підкреслює переваги впровадження порівняльного ViT.
Крім того, PaLI-3 досягає дуже хороших результатів субтитрів до відео, в середньому лише на 3 бали CIDEr нижче результатів SOTA. З огляду на розміри моделі, PaLI-3 здається відмінним вибором як з точки зору продуктивності, так і з точки зору практичності.
Пряма оцінка кодера зображення
Дослідники також оцінили модель ViT-G, яку можна розуміти як не повний PaLI-3, як показано в таблиці 6.
По-перше, у дослідженні перевірялися можливості класифікації зображень за допомогою стандартного бенчмарку ImageNet та двох його найпопулярніших варіантів. Результати показують, що SigLIP трохи відстає за точністю топ-1 та v2, але порівнянний результат у ReaL.
По-друге, у дослідженні наводяться результати різних моделей на бенчмарку Crossmodal-3600. Результати показують, що модель SigLIP ViT-G значно краща за більшу модель ViT-e.
Нарешті, дослідження також повідомило про результати лінійного зондування, які показали, що SigLIP поступається іншим моделям.
У таблицях 7 і 8 оцінюються справедливість, упередженість та інші потенційні проблеми моделі.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
З'явилася візуальна мовна модель PaLI-3 від Google, з параметрами всього 5B, менша, швидша та сильніша
В епоху великих моделей параметри моделей візуальної мови (VLM) розширилися до десятків або навіть сотень мільярдів, завдяки чому продуктивність продовжує зростати. У той же час менші моделі, як і раніше, важливі, вони простіші в навчанні та обслуговуванні, більш екологічні та забезпечують швидші цикли досліджень для проектування моделей.
У цій сфері Google Research минулого року запустив модель під назвою PaLI (Pathways Language and Image). Як мультимодальна велика модель, однією з ключових структур PaLI є повторне використання великих одномодальних магістралей для мовного та візуального моделювання, повторне використання mT5-XXL з параметрами 13B з точки зору мови, а також ViT-G з параметрами 2B та ViT-e з параметрами 4B з точки зору зору. На той момент PaLI досяг кращої продуктивності, ніж більшість старих і нових моделей.
З тих пір Google продовжує зосереджуватися на моделюванні меншого масштабу, і нещодавно запропонував PaLI-3, модель третього покоління серії PaLI. За допомогою попередньо навченої базової моделі лише з параметрами 5B вони оптимізували метод навчання та досягли конкурентоспроможних і нових результатів SOTA на кількох тестах VLM.
Метод складається з трьох основних частин, а саме: порівняльного попереднього навчання кодерів зображень на текстових даних зображень у веб-масштабі, покращеного гібридного набору даних для мультимодального навчання PaLI та навчання з вищою роздільною здатністю.
Паперова адреса:
На малюнку нижче показаний огляд моделі 5B PaLI-3, де зображення індивідуально кодуються у візуальний токен шляхом порівняння попередньо навченої моделі зору 2B SigLIP. Потім разом із запитом ці візуальні токени передаються до трансформатора UL2 структури кодера-декодера 3B, який генерує очікувану відповідь. У цій установці, порівняно з попередньою моделлю PaLI з єдиною попередньо навченою моделлю класифікації, попередньо навчена модель надає значно корисніший токен.
Крім того, дослідники також провели абляційні експерименти для порівняння з попередньо навченою базовою моделлю ViT, і додатково підтвердили доцільність попередньо навчених візуальних енкодерів на зашумлених текстових даних зображень веб-масштабу, таким чином ставши кращою альтернативою для навчання на секретних даних.
На додаток до моделі 5B PaLI-3, дослідники також використовували нещодавно запропонований метод SigLIP для побудови багатомовної моделі контрастного зору SOTA з параметрами, розширеними до 2B.
Представлення моделі
Архітектура
На вищому рівні архітектура PaLI-3 наслідує архітектуру Chen et al. (2023b; a): Модель ViT кодує зображення як токен і передається в трансформатор структури кодера-декодера разом із текстовими даними, такими як запитання, підказки та інструкції, що призводить до виведення тексту.
Почнемо з візуальної складової. Дослідники використовували метод навчання SigLIP для ініціалізації візуального кістяка PaLI-3 з попередньо навченої моделі ViT-G/14 (параметр близько 2B). Коротше кажучи, вони навчили модель ViT-G/14 для вбудовування зображень і модель трансформатора вбудовування тексту для вбудовування зображень і тексту відповідно, так що двійкові класифікатори з сигмоїдальною перехресною ентропією, використовуючи точковий добуток вбудовування зображення і тексту, можуть точно класифікувати, чи відповідають їх відповідні зображення і текст один одному.
ЦЕ СХОЖЕ НА CLIP AND ALIGN, АЛЕ БІЛЬШ ЕФЕКТИВНЕ, МАСШТАБОВАНЕ ТА НАДІЙНЕ. У той же час, цей метод полягає в попередньому навчанні компонента вбудовування зображень ViT, тому, коли ViT вставляється в PaLI, трансформатор вбудовування тексту відкидається.
Давайте розглянемо повну модель PaLI. Вихідні дані кодера зображень ViT утворюють візуальний маркер перед об'єднанням, лінійно відображаються та додаються до вбудованого вхідного текстового токена. Потім ці маркери передаються попередньо навченій моделі кодера-декодера 3B UL2 для генерації текстового виводу. Введення тексту для моделі зазвичай містить підказки, які описують тип завдання та кодують необхідний текст, введений для завдання.
Навчання
Тренувальний процес складається з декількох етапів.
Фаза 0: Унімодальна попередня підготовка. Згідно з навчальним протоколом SigLIP, кодер зображень має навчальну роздільну здатність 224×224; Кодер-декодер тексту — це модель 3B UL2, навчена відповідно до гібридної процедури шумозаглушення, описаної Tay et al.
Фаза 1: Мультимодальне навчання. Комбінована модель PaLI навчається на мультимодальних завданнях і даних шляхом поєднання кодера зображення з текстовим кодером-декодером, після чого кодер зображення залишається замороженим з роздільною здатністю 224×224. За допомогою евристичної фільтрації якості тексту та використання навчальної цілі SplitCap основні компоненти змішування знову виводяться з набору даних WebLI.
Фаза 2: Підвищення класу. Вхідні дані з високою роздільною здатністю є загальноприйнятим способом підвищення продуктивності, як тому, що можна сприймати більше деталей на зображенні, так і тому, що модель покращується за рахунок збільшення довжини послідовності. Ця стаття збільшує роздільну здатність PaLI-3 за рахунок розморожування кодера зображення, зберігаючи контрольні точки з роздільною здатністю 812×812 і 1064×1064.
Міграція завдань. Нарешті, для кожного окремого завдання (бенчмарку) ця стаття допрацьовує модель PaLI-3 на навчальних даних завдання за допомогою замороженого кодера зображень ViT; Для більшості завдань ця стаття точно налаштовує контрольну точку роздільної здатності 812×812, але для обох завдань на розуміння документа ця стаття збільшує роздільну здатність до 1064×1064.
Експерименти та результати
В експерименті спочатку порівнювалися результати різних моделей ViT в рамках PaLI, і дослідники розглядали дві моделі ViT: Classif і SigLIP.
Результати, наведені в таблиці 1, показують, що в той час як модель SigLIP відстає в лінійній класифікації з невеликою вибіркою, при використанні PaLI-3, модель SigLIP забезпечує скромний виграш у простіших завданнях, таких як субтитри та відповіді на запитання, і величезний виграш у більш складних сценаріях, а саме завданнях на розуміння тексту та простору.
Дослідники розширили PaLI-3, щоб передбачити маски сегментації з виходом, подібним до мови. Для цього вони використовували векторизований варіаційний автокодер (VQ-VAE) Ning et al. (2023). VQ-VAE навчений вивчати 128 токенів масок, а його кодер може позначати маску сегментації 64 × 64 пікселів як 16 токенів маски, які декодер може конвертувати назад.
Дослідники навчили PaLI-3 передбачати єдину маску сегментації, спочатку виводячи 4 координати у вигляді тексту і представляючи їх у вигляді обмежувальних рамок. Далі йдуть 16 жетонів масок, які представляють маски в межах обмежувальної рамки.
З таблиці 1 видно, що контрастна попередня підготовка більш ефективна, ніж класифікаційна попередня підготовка для таких завдань націлювання. З наведеної нижче таблиці 3 видно, що повна модель PaLI-3 дещо перевершує попереднє мистецтво з точки зору сегментації еталонних виразів.
Далі дослідники оцінили PaLI-3 за загальним завданням на розуміння візуальної мови. Як і в попередній роботі, вони не використовували зовнішній модуль OCR, оскільки ці тести рідко включали текст на зображеннях.
Результати показують, що PaLI-3 набагато менший за розмірами порівняно з останніми моделями SOTA, але він демонструє дуже високу продуктивність у цих тестах. Для COCO PaLI-3 перевершує всі моделі, крім BEiT-3 і 17B і 55B PaLI. На VQAv2 і TallyQA PaLI-3 перевершує всі попередні моделі, крім PaLI-X. Для місій OKVQA PaLI-3 відстає лише від PaLM-E (562B) і PaLI-X (55B), але все одно перевершує 32-зарядну модель Flamingo (80B).
У дослідженні було доопрацьовано та оцінено модель PaLI-3 за 4 тестами субтитрів до відео: MSR-VTT, VATEX, ActivityNet Captions та Spoken Moments in Time. Крім того, дослідження показало те ж саме на 3 тестах з відповідями на відеопитання: NExT-QA, MSR-VTT-QA і ActivityNet-QA.
Незважаючи на те, що PaLI-3 не використовував відеодані для попереднього навчання, він досяг чудових результатів QA відео при невеликому розмірі моделі: найсучасніша продуктивність на MSR-VTT-QA і ActivityNet-QA, а також конкурентні результати на NextQA. Постійне вдосконалення якості зображень і відео підкреслює переваги впровадження порівняльного ViT.
Крім того, PaLI-3 досягає дуже хороших результатів субтитрів до відео, в середньому лише на 3 бали CIDEr нижче результатів SOTA. З огляду на розміри моделі, PaLI-3 здається відмінним вибором як з точки зору продуктивності, так і з точки зору практичності.
Пряма оцінка кодера зображення
Дослідники також оцінили модель ViT-G, яку можна розуміти як не повний PaLI-3, як показано в таблиці 6.
По-перше, у дослідженні перевірялися можливості класифікації зображень за допомогою стандартного бенчмарку ImageNet та двох його найпопулярніших варіантів. Результати показують, що SigLIP трохи відстає за точністю топ-1 та v2, але порівнянний результат у ReaL.
По-друге, у дослідженні наводяться результати різних моделей на бенчмарку Crossmodal-3600. Результати показують, що модель SigLIP ViT-G значно краща за більшу модель ViT-e.
Нарешті, дослідження також повідомило про результати лінійного зондування, які показали, що SigLIP поступається іншим моделям.