В прошлом месяце ChatGPT официально запустил возможности распознавания изображений и речи.
Ранее в этом месяце Microsoft выпустила 166-страничную мультимодальную версию документов, связанных с GPT-4V, с подробным описанием функций и использования GPT-4V, которая привлекла широкое внимание в отрасли.
Тем не менее, Google не может быть превзойден в гонке за визуальными языковыми моделями. **
Недавно Google Research, Google DeepMind и Google Cloud совместно запустили более компактную, быструю и мощную визуальную языковую модель (VLM) PaLI-3, которая значительно конкурирует с аналогичными моделями, которые в 10 раз больше.
Исследователи сравнили модель визуального преобразователя (ViT), предварительно обученную с использованием категориальных мишеней, с контрастивной предварительно обученной моделью (SigLIP) и обнаружили, что в то время как PaLI-3 показал немного слабые результаты в стандартных тестах классификации изображений, PaLI на основе SigLIP показал отличные результаты в различных мультимодальных тестах, особенно в локализации и понимании текста.
Исследовательская работа под названием «PaLI-3 Vision Language Models: Smaller, Faster, Stronger» была опубликована на сайте препринтов arXiv.
Исследовательская группа считает, что PaLI-3 с 5 миллиардами параметров возобновил исследования основных компонентов сложных VLM, потенциально стимулируя разработку нового поколения более крупных моделей.
Мультимодальное обучение с более высоким разрешением
В последнее время в больших моделях визуального языка используются предварительно обученные кодировщики изображений в более крупных моделях, некоторые из которых предварительно обучаются с помощью контролируемой классификации (например, PaLI, PaLI-X, Flamingo, PaLM-E), некоторые используют предварительно обученные кодировщики CLIP (например, BLIPv2, CrossTVR, ChatBridge), а некоторые используют пользовательское мультимодальное предварительное обучение (например, BEiT3, CoCa, SimVLM).
** Метод обучения для этого исследования состоит из трех основных компонентов: контрастное предварительное обучение кодеров изображений на текстовых данных изображений сетевого масштаба, улучшенное мультимодальное смешивание данных PaLI и обучение при более высоких разрешениях. **
На этапе одномодального предварительного обучения кодировщик изображений использует протокол обучения SigLIP для сравнительного предварительного обучения текстовой пары изображений в Интернете. Исследователи использовали метод фильтрации, основанный на моделях, который сохранил около 40 процентов пар. Кодировщик изображений обучается с разрешением 224×224. Текстовый кодер-декодер представляет собой модель 3B UL2, обученную на гибридной программе шумоподавления.
На этапе мультимодального обучения исследователи объединили кодировщик изображения с кодером-декодером текста, чтобы сформировать модель PaLI. Эта модель обучена для мультимодальных задач, сохраняя энкодер изображения замороженным, используя собственное разрешение (224×224).
Основной набор данных поступает из наборов данных WebLI, отфильтрованных и используемых с конкретными целями обучения. Другие элементы включают многоязычные субтитры, обработку OCR, межъязыковые VQA и VQG, объектно-зависимый VQA и обнаружение объектов. Несмотря на то, что PaLI-3 не включает в себя задачи или данные из видео, он по-прежнему конкурентоспособен в этих тестах благодаря мощному кодировщику изображения. Кроме того, понимание документов и изображений было дополнительно улучшено за счет добавления в WebLI PDF-документов, содержащих плотный текст и веб-изображения, такие как плакаты или документы, а также текст на более чем 100 языках.
На этапе увеличения разрешения разрешение PaLI-3 изучается путем тонкой настройки всей модели (размораживания кодировщика изображения) и использования коротких уроков, которые постепенно увеличивают разрешение, сохраняя контрольные точки на разрешениях 812×812 и 1064×1064. Смешивание данных в основном сосредоточено на тех частях, которые связаны с визуальным позиционированием текста и обнаружением объектов.
Улучшение понимания изображений и позиционирования текста
Сначала исследователи провели контролируемое сравнение различных моделей ViT в рамках PaLI. Было обнаружено, что, несмотря на то, что модель SigLIP имела низкую производительность при линейной классификации на малых выборках, при использовании в PaLI-3 модель SigLIP обеспечивала скромный прирост производительности в «простых» задачах, таких как субтитры и ответы на вопросы, и значительные улучшения в более «сложных» задачах на текст сцены и пространственное понимание, таких как варианты TextVQA и RefCOCO. **
Затем PaLI-3 был оценен в задаче визуального позиционирования текста с изображениями в наборах данных, начиная от естественных изображений, иллюстраций, документов и пользовательских интерфейсов. ** PaLI-3 обеспечивает высочайшую производительность в большинстве тестов субтитров и VQA, как с внешним входом OCR, так и без него. Исключение составляют только AI2D и ChartQA, которые требуют не только понимания, но и мощных рассуждений о графиках. По обоим бенчмаркам PaLI-3 немного отстает от PaLI-X.
Кроме того, исследователи расширили возможности PaLI-3 для прогнозирования масок сегментации с языковым выводом. Результаты экспериментов показывают, что для данного типа задач локализации сравнительное предобучение более эффективно, чем предварительное обучение классификации. ** Полная модель PaLI-3 немного превосходит современные методы с точки зрения представления пальцами. **
В разделе Natural Image Understanding PaLI-3 был оценен по общим задачам на понимание визуального языка, включая субтитры COCO и VQAv2,** Несмотря на то, что PaLI-3 намного меньше по масштабу по сравнению с последними моделями SOTA, он показал очень хорошие результаты в этих тестах. **
В разделах «Субтитры к видео» и «Вопросы и ответы» исследователи точно настроили и оценили модель PaLI-3 на 4 бенчмарках субтитров для видео: MSR-VTT, VATEX, ActivityNet Captions и Spoken Moments in Time. Затем тот же тест был выполнен на 3 тестах производительности для видеоответов: NExT-QA, MSR-VTT-QA и ActivityNet-QA. ** Несмотря на отсутствие предварительного обучения работе с видеоданными, PaLI-3 добился отличных результатов контроля качества видео при меньшем размере модели. **
В целом, в этом исследовании ученые углубились в предварительное обучение кодеров изображений в VLM, в частности, моделей типа PaLI. Впервые проведено четкое сравнение двух методов претренинга классификации и предварительного обучения графического текста (контраста) и обнаружено, что последний приводит к лучшему и более эффективному VLM, особенно в задачах локализации и понимания текста.
Кроме того, исследователи отмечают в статье: «Это только один небольшой аспект VLM, и мы надеемся, что это исследование и его результаты вдохновят на более глубокое изучение многих других аспектов обучения VLM». "
Ссылка на статью:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Лицом к лицу ГПТ-4В! Появилась визуальная языковая модель Google PaLI-3, меньше, быстрее и сильнее
Источник: Academic Headlines
В прошлом месяце ChatGPT официально запустил возможности распознавания изображений и речи.
Ранее в этом месяце Microsoft выпустила 166-страничную мультимодальную версию документов, связанных с GPT-4V, с подробным описанием функций и использования GPT-4V, которая привлекла широкое внимание в отрасли.
Недавно Google Research, Google DeepMind и Google Cloud совместно запустили более компактную, быструю и мощную визуальную языковую модель (VLM) PaLI-3, которая значительно конкурирует с аналогичными моделями, которые в 10 раз больше.
Исследователи сравнили модель визуального преобразователя (ViT), предварительно обученную с использованием категориальных мишеней, с контрастивной предварительно обученной моделью (SigLIP) и обнаружили, что в то время как PaLI-3 показал немного слабые результаты в стандартных тестах классификации изображений, PaLI на основе SigLIP показал отличные результаты в различных мультимодальных тестах, особенно в локализации и понимании текста.
Исследовательская работа под названием «PaLI-3 Vision Language Models: Smaller, Faster, Stronger» была опубликована на сайте препринтов arXiv.
Мультимодальное обучение с более высоким разрешением
В последнее время в больших моделях визуального языка используются предварительно обученные кодировщики изображений в более крупных моделях, некоторые из которых предварительно обучаются с помощью контролируемой классификации (например, PaLI, PaLI-X, Flamingo, PaLM-E), некоторые используют предварительно обученные кодировщики CLIP (например, BLIPv2, CrossTVR, ChatBridge), а некоторые используют пользовательское мультимодальное предварительное обучение (например, BEiT3, CoCa, SimVLM).
** Метод обучения для этого исследования состоит из трех основных компонентов: контрастное предварительное обучение кодеров изображений на текстовых данных изображений сетевого масштаба, улучшенное мультимодальное смешивание данных PaLI и обучение при более высоких разрешениях. **
На этапе одномодального предварительного обучения кодировщик изображений использует протокол обучения SigLIP для сравнительного предварительного обучения текстовой пары изображений в Интернете. Исследователи использовали метод фильтрации, основанный на моделях, который сохранил около 40 процентов пар. Кодировщик изображений обучается с разрешением 224×224. Текстовый кодер-декодер представляет собой модель 3B UL2, обученную на гибридной программе шумоподавления.
На этапе мультимодального обучения исследователи объединили кодировщик изображения с кодером-декодером текста, чтобы сформировать модель PaLI. Эта модель обучена для мультимодальных задач, сохраняя энкодер изображения замороженным, используя собственное разрешение (224×224).
На этапе увеличения разрешения разрешение PaLI-3 изучается путем тонкой настройки всей модели (размораживания кодировщика изображения) и использования коротких уроков, которые постепенно увеличивают разрешение, сохраняя контрольные точки на разрешениях 812×812 и 1064×1064. Смешивание данных в основном сосредоточено на тех частях, которые связаны с визуальным позиционированием текста и обнаружением объектов.
Улучшение понимания изображений и позиционирования текста
Сначала исследователи провели контролируемое сравнение различных моделей ViT в рамках PaLI. Было обнаружено, что, несмотря на то, что модель SigLIP имела низкую производительность при линейной классификации на малых выборках, при использовании в PaLI-3 модель SigLIP обеспечивала скромный прирост производительности в «простых» задачах, таких как субтитры и ответы на вопросы, и значительные улучшения в более «сложных» задачах на текст сцены и пространственное понимание, таких как варианты TextVQA и RefCOCO. **
Кроме того, исследователи расширили возможности PaLI-3 для прогнозирования масок сегментации с языковым выводом. Результаты экспериментов показывают, что для данного типа задач локализации сравнительное предобучение более эффективно, чем предварительное обучение классификации. ** Полная модель PaLI-3 немного превосходит современные методы с точки зрения представления пальцами. **
В разделе Natural Image Understanding PaLI-3 был оценен по общим задачам на понимание визуального языка, включая субтитры COCO и VQAv2,** Несмотря на то, что PaLI-3 намного меньше по масштабу по сравнению с последними моделями SOTA, он показал очень хорошие результаты в этих тестах. **
В целом, в этом исследовании ученые углубились в предварительное обучение кодеров изображений в VLM, в частности, моделей типа PaLI. Впервые проведено четкое сравнение двух методов претренинга классификации и предварительного обучения графического текста (контраста) и обнаружено, что последний приводит к лучшему и более эффективному VLM, особенно в задачах локализации и понимания текста.
Кроме того, исследователи отмечают в статье: «Это только один небольшой аспект VLM, и мы надеемся, что это исследование и его результаты вдохновят на более глубокое изучение многих других аспектов обучения VLM». "
Ссылка на статью: