Минулого місяця ChatGPT офіційно запустив можливості розпізнавання зображень і мови.
Раніше цього місяця Microsoft випустила 166-сторінкову мультимодальну версію документів, пов'язаних з GPT-4V, з детальним описом функцій і використання GPT-4V, що привернуло широку увагу в галузі.
Однак Google не повинен бути перевершений у гонці за візуальними мовними моделями. **
Нещодавно Google Research, Google DeepMind і Google Cloud спільно запустили меншу, швидшу та потужнішу візуальну мовну модель (VLM) PaLI-3, яка значно конкурує з аналогічними моделями, які в 10 разів більші.
Дослідники порівняли модель візуального трансформатора (ViT), попередньо навчену з використанням категорійних цілей, з контрастною попередньо навченою моделлю (SigLIP) і виявили, що в той час як PaLI-3 показав дещо погані результати в стандартних тестах класифікації зображень, PaLI на основі SigLIP показав чудову продуктивність у різних мультимодальних тестах, особливо в локалізації та розумінні тексту.
Дослідницька стаття під назвою «PaLI-3 Vision Language Models: Smaller, Faster, Stronger» була опублікована на веб-сайті препринтів arXiv.
Дослідницька група вважає, що PaLI-3 з лише 5 мільярдами параметрів відновив дослідження основних компонентів складних VLM, потенційно стимулюючи розробку нового покоління більших моделей.
Мультимодальне навчання з вищою роздільною здатністю
Зовсім недавно великі візуальні мовні моделі використовували попередньо навчені кодери зображень у своїх великих моделях, деякі з яких попередньо навчені за допомогою контрольованої класифікації (наприклад, PaLI, PaLI-X, Flamingo, PaLM-E), деякі використовують попередньо навчені кодери CLIP (наприклад, BLIPv2, CrossTVR, ChatBridge), а деякі використовують спеціальне мультимодальне попереднє навчання (наприклад, BEiT3, CoCa, SimVLM).
**Метод навчання для цього дослідження складається з трьох основних компонентів: контрастного попереднього навчання кодерів зображень на текстових даних зображень у мережевому масштабі, покращене мультимодальне змішування навчальних даних PaLI та навчання на вищій роздільній здатності. **
На етапі одномодального попереднього навчання кодувальник зображень використовує навчальний протокол SigLIP для порівняльного попереднього навчання сполученню тексту зображення в Інтернеті. Дослідники використовували метод фільтрації на основі моделі, який зберіг близько 40 відсотків пар. Кодувальник зображень навчається з роздільною здатністю 224×224. Кодувальник-декодер тексту являє собою модель 3B UL2, навчену на гібридній програмі знешумлення.
На етапі мультимодального навчання дослідники об'єднали кодер зображень із текстовим кодером-декодером, щоб сформувати модель PaLI. Ця модель навчається для виконання мультимодальних завдань, зберігаючи кодер зображення замороженим, використовуючи власну роздільну здатність (224×224).
Основний набір даних походить із наборів даних WebLI, відфільтрованих і використаних для конкретних навчальних цілей. Інші елементи включають багатомовні субтитри, обробку OCR, міжмовні VQA та VQG, об'єктно-орієнтоване VQA та виявлення об'єктів. Незважаючи на те, що PaLI-3 не включає завдання або дані з відео, він все ще конкурентоспроможний у цих тестах завдяки потужному енкодеру зображень. Крім того, розуміння документів і зображень було додатково покращено шляхом додавання PDF-документів, що містять щільний текст і веб-зображення, такі як плакати або документи, а також текст більш ніж 100 мовами до WebLI.
Під час фази збільшення роздільної здатності роздільна здатність PaLI-3 вивчається шляхом тонкого налаштування всієї моделі (розморожування кодера зображення) і використання коротких уроків, які поступово збільшують роздільну здатність, підтримуючи контрольні точки на роздільній здатності 812×812 і 1064×1064. Змішування даних в основному зосереджено на частинах, які передбачають візуальне позиціонування тексту та виявлення об'єктів.
Покращення розуміння зображень і завдання позиціонування тексту
По-перше, дослідники провели контрольоване порівняння різних моделей ViT в рамках PaLI. Було виявлено, що, хоча модель SigLIP мала низьку продуктивність у лінійній класифікації з малою вибіркою, при використанні в PaLI-3, модель SigLIP забезпечила скромний приріст продуктивності для «простих» завдань, таких як субтитри та відповіді на запитання, а також значні покращення для більш «складних» завдань тексту сцени та просторового розуміння, таких як варіанти TextVQA та RefCOCO. **
Потім PaLI-3 був оцінений у завданні на розуміння візуально позиціонованого тексту, із зображеннями в наборах даних, починаючи від природних зображень, ілюстрацій, документів та інтерфейсів користувача. **PaLI-3 забезпечує найсучаснішу продуктивність на більшості тестів субтитрів і VQA, із зовнішнім входом OCR або без нього. Виняток становлять лише AI2D і ChartQA, які вимагають не тільки розуміння, але і потужних міркувань про графіки. За обома бенчмарками PaLI-3 трохи відстає від PaLI-X.
Крім того, дослідники розширили можливості PaLI-3 для прогнозування масок сегментації з виходом, подібним до мови. Експериментальні результати свідчать, що для такого типу завдань локалізації порівняльна попередня підготовка є більш ефективною, ніж класифікаційна попередня підготовка. ** Повна модель PaLI-3 трохи перевершує найсучасніші методи з точки зору зображення пальців. **
У розділі «Розуміння природних зображень» PaLI-3 оцінювався на загальних завданнях з розуміння візуальної мови, включаючи субтитри COCO та VQAv2,** хоча PaLI-3 був набагато меншим за масштабом порівняно з останніми моделями SOTA, він дуже добре показав себе в цих тестах. **
У розділах субтитрів до відео та запитань і відповідей дослідники точно налаштували та оцінили модель PaLI-3 за 4 тестами субтитрів до відео: MSR-VTT, VATEX, ActivityNet Captions та Spoken Moments in Time. Потім той самий тест був проведений на 3 тестах з відповідями на відеозапитання: NExT-QA, MSR-VTT-QA та ActivityNet-QA. ** Незважаючи на відсутність попереднього навчання з відеоданими, PaLI-3 досяг чудових результатів гарантії якості відео при меншому розмірі моделі. **
Загалом, у цьому дослідженні вчені заглибилися в попереднє навчання кодерів зображень у VLM, зокрема моделей типу PaLI. Вперше чітко порівнюються два методи класифікації попереднього навчання та попереднього навчання тексту зображення (контрасту) і встановлено, що останній призводить до кращого та ефективнішого ВЛМ, особливо в задачах локалізації та розуміння тексту.
Крім того, дослідники зазначають у статті: «Це лише один невеликий аспект VLM, і ми сподіваємося, що це дослідження та його результати надихнуть на більш глибоке вивчення багатьох інших аспектів навчання VLM». "
Посилання на папір:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Обличчя GPT-4V! З'явилася візуальна мовна модель PaLI-3 від Google, менша, швидша та сильніша
Джерело: Academic Headlines
Минулого місяця ChatGPT офіційно запустив можливості розпізнавання зображень і мови.
Раніше цього місяця Microsoft випустила 166-сторінкову мультимодальну версію документів, пов'язаних з GPT-4V, з детальним описом функцій і використання GPT-4V, що привернуло широку увагу в галузі.
Нещодавно Google Research, Google DeepMind і Google Cloud спільно запустили меншу, швидшу та потужнішу візуальну мовну модель (VLM) PaLI-3, яка значно конкурує з аналогічними моделями, які в 10 разів більші.
Дослідники порівняли модель візуального трансформатора (ViT), попередньо навчену з використанням категорійних цілей, з контрастною попередньо навченою моделлю (SigLIP) і виявили, що в той час як PaLI-3 показав дещо погані результати в стандартних тестах класифікації зображень, PaLI на основі SigLIP показав чудову продуктивність у різних мультимодальних тестах, особливо в локалізації та розумінні тексту.
Дослідницька стаття під назвою «PaLI-3 Vision Language Models: Smaller, Faster, Stronger» була опублікована на веб-сайті препринтів arXiv.
Мультимодальне навчання з вищою роздільною здатністю
Зовсім недавно великі візуальні мовні моделі використовували попередньо навчені кодери зображень у своїх великих моделях, деякі з яких попередньо навчені за допомогою контрольованої класифікації (наприклад, PaLI, PaLI-X, Flamingo, PaLM-E), деякі використовують попередньо навчені кодери CLIP (наприклад, BLIPv2, CrossTVR, ChatBridge), а деякі використовують спеціальне мультимодальне попереднє навчання (наприклад, BEiT3, CoCa, SimVLM).
**Метод навчання для цього дослідження складається з трьох основних компонентів: контрастного попереднього навчання кодерів зображень на текстових даних зображень у мережевому масштабі, покращене мультимодальне змішування навчальних даних PaLI та навчання на вищій роздільній здатності. **
На етапі одномодального попереднього навчання кодувальник зображень використовує навчальний протокол SigLIP для порівняльного попереднього навчання сполученню тексту зображення в Інтернеті. Дослідники використовували метод фільтрації на основі моделі, який зберіг близько 40 відсотків пар. Кодувальник зображень навчається з роздільною здатністю 224×224. Кодувальник-декодер тексту являє собою модель 3B UL2, навчену на гібридній програмі знешумлення.
На етапі мультимодального навчання дослідники об'єднали кодер зображень із текстовим кодером-декодером, щоб сформувати модель PaLI. Ця модель навчається для виконання мультимодальних завдань, зберігаючи кодер зображення замороженим, використовуючи власну роздільну здатність (224×224).
Під час фази збільшення роздільної здатності роздільна здатність PaLI-3 вивчається шляхом тонкого налаштування всієї моделі (розморожування кодера зображення) і використання коротких уроків, які поступово збільшують роздільну здатність, підтримуючи контрольні точки на роздільній здатності 812×812 і 1064×1064. Змішування даних в основному зосереджено на частинах, які передбачають візуальне позиціонування тексту та виявлення об'єктів.
Покращення розуміння зображень і завдання позиціонування тексту
По-перше, дослідники провели контрольоване порівняння різних моделей ViT в рамках PaLI. Було виявлено, що, хоча модель SigLIP мала низьку продуктивність у лінійній класифікації з малою вибіркою, при використанні в PaLI-3, модель SigLIP забезпечила скромний приріст продуктивності для «простих» завдань, таких як субтитри та відповіді на запитання, а також значні покращення для більш «складних» завдань тексту сцени та просторового розуміння, таких як варіанти TextVQA та RefCOCO. **
Крім того, дослідники розширили можливості PaLI-3 для прогнозування масок сегментації з виходом, подібним до мови. Експериментальні результати свідчать, що для такого типу завдань локалізації порівняльна попередня підготовка є більш ефективною, ніж класифікаційна попередня підготовка. ** Повна модель PaLI-3 трохи перевершує найсучасніші методи з точки зору зображення пальців. **
У розділі «Розуміння природних зображень» PaLI-3 оцінювався на загальних завданнях з розуміння візуальної мови, включаючи субтитри COCO та VQAv2,** хоча PaLI-3 був набагато меншим за масштабом порівняно з останніми моделями SOTA, він дуже добре показав себе в цих тестах. **
Загалом, у цьому дослідженні вчені заглибилися в попереднє навчання кодерів зображень у VLM, зокрема моделей типу PaLI. Вперше чітко порівнюються два методи класифікації попереднього навчання та попереднього навчання тексту зображення (контрасту) і встановлено, що останній призводить до кращого та ефективнішого ВЛМ, особливо в задачах локалізації та розуміння тексту.
Крім того, дослідники зазначають у статті: «Це лише один невеликий аспект VLM, і ми сподіваємося, що це дослідження та його результати надихнуть на більш глибоке вивчення багатьох інших аспектів навчання VLM». "
Посилання на папір: