Лицом к лицу ГПТ-4В! Появилась визуальная языковая модель Google PaLI-3, меньше, быстрее и сильнее

2023-10-17 09:36:42

Источник: Academic Headlines

Источник изображения: Сгенерировано Unbounded AI

В прошлом месяце ChatGPT официально запустил возможности распознавания изображений и речи.

Ранее в этом месяце Microsoft выпустила 166-страничную мультимодальную версию документов, связанных с GPT-4V, с подробным описанием функций и использования GPT-4V, которая привлекла широкое внимание в отрасли.

Тем не менее, Google не может быть превзойден в гонке за визуальными языковыми моделями. **

Недавно Google Research, Google DeepMind и Google Cloud совместно запустили более компактную, быструю и мощную визуальную языковую модель (VLM) PaLI-3, которая значительно конкурирует с аналогичными моделями, которые в 10 раз больше.

Исследователи сравнили модель визуального преобразователя (ViT), предварительно обученную с использованием категориальных мишеней, с контрастивной предварительно обученной моделью (SigLIP) и обнаружили, что в то время как PaLI-3 показал немного слабые результаты в стандартных тестах классификации изображений, PaLI на основе SigLIP показал отличные результаты в различных мультимодальных тестах, особенно в локализации и понимании текста.

Исследовательская работа под названием «PaLI-3 Vision Language Models: Smaller, Faster, Stronger» была опубликована на сайте препринтов arXiv.

Исследовательская группа считает, что PaLI-3 с 5 миллиардами параметров возобновил исследования основных компонентов сложных VLM, потенциально стимулируя разработку нового поколения более крупных моделей.

Мультимодальное обучение с более высоким разрешением

В последнее время в больших моделях визуального языка используются предварительно обученные кодировщики изображений в более крупных моделях, некоторые из которых предварительно обучаются с помощью контролируемой классификации (например, PaLI, PaLI-X, Flamingo, PaLM-E), некоторые используют предварительно обученные кодировщики CLIP (например, BLIPv2, CrossTVR, ChatBridge), а некоторые используют пользовательское мультимодальное предварительное обучение (например, BEiT3, CoCa, SimVLM).

** Метод обучения для этого исследования состоит из трех основных компонентов: контрастное предварительное обучение кодеров изображений на текстовых данных изображений сетевого масштаба, улучшенное мультимодальное смешивание данных PaLI и обучение при более высоких разрешениях. **

На этапе одномодального предварительного обучения кодировщик изображений использует протокол обучения SigLIP для сравнительного предварительного обучения текстовой пары изображений в Интернете. Исследователи использовали метод фильтрации, основанный на моделях, который сохранил около 40 процентов пар. Кодировщик изображений обучается с разрешением 224×224. Текстовый кодер-декодер представляет собой модель 3B UL2, обученную на гибридной программе шумоподавления.

На этапе мультимодального обучения исследователи объединили кодировщик изображения с кодером-декодером текста, чтобы сформировать модель PaLI. Эта модель обучена для мультимодальных задач, сохраняя энкодер изображения замороженным, используя собственное разрешение (224×224).

Основной набор данных поступает из наборов данных WebLI, отфильтрованных и используемых с конкретными целями обучения. Другие элементы включают многоязычные субтитры, обработку OCR, межъязыковые VQA и VQG, объектно-зависимый VQA и обнаружение объектов. Несмотря на то, что PaLI-3 не включает в себя задачи или данные из видео, он по-прежнему конкурентоспособен в этих тестах благодаря мощному кодировщику изображения. Кроме того, понимание документов и изображений было дополнительно улучшено за счет добавления в WebLI PDF-документов, содержащих плотный текст и веб-изображения, такие как плакаты или документы, а также текст на более чем 100 языках.

На этапе увеличения разрешения разрешение PaLI-3 изучается путем тонкой настройки всей модели (размораживания кодировщика изображения) и использования коротких уроков, которые постепенно увеличивают разрешение, сохраняя контрольные точки на разрешениях 812×812 и 1064×1064. Смешивание данных в основном сосредоточено на тех частях, которые связаны с визуальным позиционированием текста и обнаружением объектов.

Улучшение понимания изображений и позиционирования текста

Сначала исследователи провели контролируемое сравнение различных моделей ViT в рамках PaLI. Было обнаружено, что, несмотря на то, что модель SigLIP имела низкую производительность при линейной классификации на малых выборках, при использовании в PaLI-3 модель SigLIP обеспечивала скромный прирост производительности в «простых» задачах, таких как субтитры и ответы на вопросы, и значительные улучшения в более «сложных» задачах на текст сцены и пространственное понимание, таких как варианты TextVQA и RefCOCO. **

Затем PaLI-3 был оценен в задаче визуального позиционирования текста с изображениями в наборах данных, начиная от естественных изображений, иллюстраций, документов и пользовательских интерфейсов. ** PaLI-3 обеспечивает высочайшую производительность в большинстве тестов субтитров и VQA, как с внешним входом OCR, так и без него. Исключение составляют только AI2D и ChartQA, которые требуют не только понимания, но и мощных рассуждений о графиках. По обоим бенчмаркам PaLI-3 немного отстает от PaLI-X.

Кроме того, исследователи расширили возможности PaLI-3 для прогнозирования масок сегментации с языковым выводом. Результаты экспериментов показывают, что для данного типа задач локализации сравнительное предобучение более эффективно, чем предварительное обучение классификации. ** Полная модель PaLI-3 немного превосходит современные методы с точки зрения представления пальцами. **

В разделе Natural Image Understanding PaLI-3 был оценен по общим задачам на понимание визуального языка, включая субтитры COCO и VQAv2,** Несмотря на то, что PaLI-3 намного меньше по масштабу по сравнению с последними моделями SOTA, он показал очень хорошие результаты в этих тестах. **

В разделах «Субтитры к видео» и «Вопросы и ответы» исследователи точно настроили и оценили модель PaLI-3 на 4 бенчмарках субтитров для видео: MSR-VTT, VATEX, ActivityNet Captions и Spoken Moments in Time. Затем тот же тест был выполнен на 3 тестах производительности для видеоответов: NExT-QA, MSR-VTT-QA и ActivityNet-QA. ** Несмотря на отсутствие предварительного обучения работе с видеоданными, PaLI-3 добился отличных результатов контроля качества видео при меньшем размере модели. **

В целом, в этом исследовании ученые углубились в предварительное обучение кодеров изображений в VLM, в частности, моделей типа PaLI. Впервые проведено четкое сравнение двух методов претренинга классификации и предварительного обучения графического текста (контраста) и обнаружено, что последний приводит к лучшему и более эффективному VLM, особенно в задачах локализации и понимания текста.

Кроме того, исследователи отмечают в статье: «Это только один небольшой аспект VLM, и мы надеемся, что это исследование и его результаты вдохновят на более глубокое изучение многих других аспектов обучения VLM». "

Ссылка на статью:

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков

Награда
2
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1CandyDrop Airdrop Event 6.0
26k Популярность
2White House Crypto Report
35k Популярность
3Join Alpha RION Airdrop to Earn $40
17k Популярность
4Fed Holds Rates Decision
8k Популярность
5July Spark Program TOP 10 Creators Announced
2k Популярность

Закрепить

Карта сайта