В области мультимодальных (визуальный язык) больших моделей, конкурирующих параметров для повышения производительности, погоня за меньшими параметрами, более высокой скоростью и более высокой производительностью является еще одним исследовательским путем.
Источник изображения: Generated by Unbounded AI
В эпоху больших моделей параметры визуальных языковых моделей (VLM) расширились до десятков или даже сотен миллиардов, благодаря чему производительность продолжает расти. В то же время модели меньшего размера по-прежнему важны, они проще в обучении и обслуживании, более экологичны и обеспечивают более быстрые исследовательские циклы для проектирования моделей.
В этой области в прошлом году Google Research запустил модель под названием PaLI (Pathways Language and Image). Как мультимодальная большая модель, одной из ключевых структур PaLI является повторное использование больших одномодальных магистралей для языкового и визуального моделирования, повторное использование mT5-XXL с параметрами 13B с точки зрения языка, а также ViT-G с параметрами 2B и ViT-e с параметрами 4B с точки зрения зрения. В то время PaLI достигал лучших характеристик, чем большинство старых и новых моделей.
С тех пор Google продолжает фокусироваться на более мелкомасштабном моделировании и недавно предложила PaLI-3, модель третьего поколения серии PaLI. Используя предварительно обученную базовую модель с параметрами 5B, они оптимизировали метод обучения и добились конкурентоспособных и новых результатов SOTA на нескольких бенчмарках VLM.
Метод состоит из трех основных частей, а именно: сравнительное предварительное обучение кодировщиков изображений на текстовых данных изображений веб-масштаба, улучшенный гибридный набор данных для мультимодального обучения PaLI и обучение с более высоким разрешением.
*Авторы из Google Research, Google DeepMind и Google Cloud. *
Адрес доклада:
На рисунке ниже показан обзор модели 5B PaLI-3, в которой изображения по отдельности кодируются в визуальный токен путем сравнения предварительно обученной модели машинного зрения 2B SigLIP. Затем вместе с запросом эти визуальные токены передаются в UL2 Transformer структуры кодировщик-декодер 3B, который генерирует ожидаемый ответ. В этой конфигурации, по сравнению с предыдущей моделью PaLI, состоящей из предварительно обученной модели с одной классификацией, предварительно обученная модель предоставляет значительно более полезный маркер.
Насколько она эффективна? PaLI-3 реализует новую SOTA для задач, требующих визуального позиционирования текста и целевого позиционирования, включая 8 задач визуального позиционирования текста и задач сегментации ссылочных выражений на наборе данных RefCOCO. PaLI-3 также превосходно справляется с целым рядом классифицированных задач машинного зрения.
Кроме того, исследователи также провели эксперименты по абляции для сравнения с предварительно обученной моделью классификации ViT и дополнительно подтвердили возможность использования предварительно обученных визуальных кодеров на зашумленных текстовых данных изображений веб-масштаба, таким образом, став предпочтительной альтернативой для обучения на классифицированных данных.
В дополнение к модели 5B PaLI-3 исследователи также использовали недавно предложенный метод SigLIP для построения многоязычной контрастивной модели зрения SOTA с параметрами, расширенными до 2B.
Введение в модель
Архитектура
На более высоком уровне архитектура PaLI-3 соответствует архитектуре Chen et al. (2023b; a): Модель ViT кодирует изображение в виде токена и передается в преобразователь структуры кодировщик-декодер вместе с текстовыми входными данными, такими как вопросы, подсказки и инструкции, в результате чего получается текстовый вывод.
Начнем с визуальной составляющей. Исследователи использовали метод обучения SigLIP для инициализации визуальной основы PaLI-3 из сравниваемой предварительно обученной модели ViT-G/14 (параметр около 2B). Короче говоря, они обучили модель ViT-G/14 для встраивания изображений и модель трансформера для встраивания текстов для встраивания изображений и текста соответственно, чтобы двоичные классификаторы с сигмоидной перекрестной энтропией, использующие скалярное произведение для встраивания изображений и текста, могли точно классифицировать, соответствуют ли их изображения и текст друг другу.
ЭТО ПОХОЖЕ НА CLIP AND ALIGN, НО БОЛЕЕ ЭФФЕКТИВНО, МАСШТАБИРУЕМО И НАДЕЖНО. В то же время, этот метод заключается в предварительном обучении компонента встраивания изображений ViT, поэтому при вставке ViT в PaLI трансформатор встраивания текста отбрасывается.
Давайте посмотрим на полную модель PaLI. Выходные данные кодировщика изображений ViT формируют визуальный маркер перед объединением в пул, линейно сопоставляются и добавляются к встроенному входному текстовому маркеру. Затем эти маркеры передаются в предварительно обученную модель кодировщика-декодера 3B UL2 для создания текстового вывода. Текстовые входные данные для модели обычно содержат запросы, описывающие тип задачи и кодирующие необходимые текстовые входные данные для задачи.
Тренировка
Процесс обучения состоит из нескольких этапов.
Фаза 0: Унимодальная предварительная подготовка. Согласно протоколу обучения SigLIP, кодировщик изображения имеет разрешение обучения 224×224; Текстовый кодер-декодер представляет собой модель 3B UL2, обученную в соответствии с процедурой гибридного шумоподавления, описанной Tay et al.
Этап 1: Мультимодальное обучение. Комбинированная модель PaLI обучается на мультимодальных задачах и данных путем объединения кодировщика изображения с кодировщиком-декодером текста, после чего кодировщик изображения остается замороженным с разрешением 224×224. С помощью эвристической фильтрации качества текста и использования обучающей цели SplitCap основные компоненты смешивания снова извлекаются из набора данных WebLI.
Этап 2: Масштабирование. Входные данные с высоким разрешением являются широко распространенным способом повышения производительности, как потому, что можно воспринимать больше деталей на изображении, так и потому, что модель улучшается за счет увеличения длины последовательности. В этой статье разрешение PaLI-3 увеличено за счет размораживания кодировщика изображения, сохраняя контрольные точки в разрешениях 812×812 и 1064×1064.
Миграция задач. Наконец, для каждой отдельной задачи (бенчмарка) в данной работе выполняется тонкая настройка модели PaLI-3 на обучающих данных задачи с использованием энкодера замороженного изображения ViT; Для большинства задач в этой статье выполняется точная настройка контрольной точки разрешения 812×812, но для обеих задач понимания документов в этой статье разрешение увеличивается до 1064×1064.
Эксперименты и результаты
В ходе эксперимента сначала сравнивались результаты различных моделей ViT в рамках PaLI, и исследователи рассмотрели две модели ViT: Classif и SigLIP.
Результаты, представленные в таблице 1, показывают, что, хотя модель SigLIP отстает в линейной классификации на малых выборках, при использовании PaLI-3 модель SigLIP обеспечивает скромный выигрыш в более простых задачах, таких как субтитры и ответы на вопросы, и огромный выигрыш в более сложных сценариях, а именно в задачах на понимание текста и пространственного понимания.
Кроме того, исследователи оценили PaLI-3 на наборах данных TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Результаты приведены в таблице 2, где PaLI-3 всего на 0,7 балла ниже, чем метод SOTA при использовании внешней системы оптического распознавания символов. Однако при отсутствии такой внешней системы PaLI-3 на 4,4 балла выше, чем комбинация всех методов SOTA. Для TextCaps, TextVQA, InfographicVQA и DocVQA PaLI-3 имеет преимущество в 8 баллов и более.
Сегментация ссылочных выражений
Исследователи расширили PaLI-3 для предсказания масок сегментации с языковым выводом. Для этого они использовали векторизованный вариационный автоэнкодер (VQ-VAE) Ning et al. (2023). VQ-VAE обучен запоминать 128 маркеров маски, а его кодировщик может помечать маску сегментации размером 64 × 64 пикселя как 16 маркеров маски, которые декодер может преобразовать обратно.
Исследователи обучили PaLI-3 предсказывать одну маску сегментации, сначала выводя 4 координаты в виде текста и представляя их в виде ограничивающих прямоугольников. За ним следуют 16 маркеров маски, которые представляют маски в ограничительной рамке.
Из таблицы 1 видно, что претренинг контраста более эффективен, чем претренинг классификации для таких задач таргетинга. Из приведенной ниже таблицы 3 видно, что полная модель PaLI-3 несколько превосходит известный уровень техники с точки зрения сегментации эталонных выражений.
Понимание изображения
Затем исследователи оценили PaLI-3 в общей задаче на понимание визуального языка. Как и в своей предыдущей работе, они не использовали внешний модуль OCR, потому что эти тесты редко включали текст в изображениях.
Результаты показывают, что PaLI-3 намного меньше по размеру по сравнению с последними моделями SOTA, но он показывает очень высокие показатели в этих тестах. Для COCO PaLI-3 превосходит все модели, кроме BEiT-3 и 17B и 55B PaLI. На VQAv2 и TallyQA PaLI-3 превосходит все предыдущие модели, кроме PaLI-X. Для миссий OKVQA PaLI-3 уступает только PaLM-E (562B) и PaLI-X (55B), но все же превосходит 32-зарядную модель Flamingo (80B).
Субтитры к видео и вопросы и ответы
В исследовании была проведена точная настройка и оценка модели PaLI-3 на 4 тестах для создания субтитров к видео: MSR-VTT, VATEX, ActivityNet Captions и Spoken Moments in Time. Кроме того, в исследовании было сделано то же самое для 3 тестов видеоответов на вопросы: NExT-QA, MSR-VTT-QA и ActivityNet-QA.
Несмотря на то, что PaLI-3 не использует видеоданные для предварительного обучения, он добился отличных результатов контроля качества видео при небольшом размере модели: современная производительность на MSR-VTT-QA и ActivityNet-QA, а также конкурентоспособные результаты на NextQA. Постоянное совершенствование контроля качества изображений и видео подчеркивает преимущества внедрения сравнительного ViT.
Кроме того, PaLI-3 обеспечивает очень хорошие результаты субтитров к видео, в среднем всего на 3 балла CIDEr ниже результатов SOTA. Учитывая размер модели, PaLI-3 кажется отличным выбором как с точки зрения производительности, так и практичности.
Прямая оценка кодировщика изображения
Исследователи также оценили модель ViT-G, которую можно понимать как не полную модель PaLI-3, как показано в таблице 6.
Во-первых, в исследовании были протестированы возможности классификации изображений с использованием стандартного теста ImageNet и двух его наиболее популярных вариантов. Результаты показывают, что SigLIP немного отстает по точности top-1 и v2, но сопоставимым результатам по ReaL.
Во-вторых, в исследовании сообщается о результатах различных моделей в бенчмарке Crossmodal-3600. Результаты показывают, что модель SigLIP ViT-G значительно лучше, чем более крупная модель ViT-e.
Наконец, в исследовании также сообщалось о результатах линейного зондирования, которые показали, что SigLIP уступает другим моделям.
В таблицах 7 и 8 оценивается справедливость, систематическая ошибка и другие потенциальные проблемы модели.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Появилась визуальная языковая модель Google PaLI-3 с параметрами всего 5B, меньше, быстрее и сильнее
В эпоху больших моделей параметры визуальных языковых моделей (VLM) расширились до десятков или даже сотен миллиардов, благодаря чему производительность продолжает расти. В то же время модели меньшего размера по-прежнему важны, они проще в обучении и обслуживании, более экологичны и обеспечивают более быстрые исследовательские циклы для проектирования моделей.
В этой области в прошлом году Google Research запустил модель под названием PaLI (Pathways Language and Image). Как мультимодальная большая модель, одной из ключевых структур PaLI является повторное использование больших одномодальных магистралей для языкового и визуального моделирования, повторное использование mT5-XXL с параметрами 13B с точки зрения языка, а также ViT-G с параметрами 2B и ViT-e с параметрами 4B с точки зрения зрения. В то время PaLI достигал лучших характеристик, чем большинство старых и новых моделей.
С тех пор Google продолжает фокусироваться на более мелкомасштабном моделировании и недавно предложила PaLI-3, модель третьего поколения серии PaLI. Используя предварительно обученную базовую модель с параметрами 5B, они оптимизировали метод обучения и добились конкурентоспособных и новых результатов SOTA на нескольких бенчмарках VLM.
Метод состоит из трех основных частей, а именно: сравнительное предварительное обучение кодировщиков изображений на текстовых данных изображений веб-масштаба, улучшенный гибридный набор данных для мультимодального обучения PaLI и обучение с более высоким разрешением.
Адрес доклада:
На рисунке ниже показан обзор модели 5B PaLI-3, в которой изображения по отдельности кодируются в визуальный токен путем сравнения предварительно обученной модели машинного зрения 2B SigLIP. Затем вместе с запросом эти визуальные токены передаются в UL2 Transformer структуры кодировщик-декодер 3B, который генерирует ожидаемый ответ. В этой конфигурации, по сравнению с предыдущей моделью PaLI, состоящей из предварительно обученной модели с одной классификацией, предварительно обученная модель предоставляет значительно более полезный маркер.
Кроме того, исследователи также провели эксперименты по абляции для сравнения с предварительно обученной моделью классификации ViT и дополнительно подтвердили возможность использования предварительно обученных визуальных кодеров на зашумленных текстовых данных изображений веб-масштаба, таким образом, став предпочтительной альтернативой для обучения на классифицированных данных.
В дополнение к модели 5B PaLI-3 исследователи также использовали недавно предложенный метод SigLIP для построения многоязычной контрастивной модели зрения SOTA с параметрами, расширенными до 2B.
Введение в модель
Архитектура
На более высоком уровне архитектура PaLI-3 соответствует архитектуре Chen et al. (2023b; a): Модель ViT кодирует изображение в виде токена и передается в преобразователь структуры кодировщик-декодер вместе с текстовыми входными данными, такими как вопросы, подсказки и инструкции, в результате чего получается текстовый вывод.
Начнем с визуальной составляющей. Исследователи использовали метод обучения SigLIP для инициализации визуальной основы PaLI-3 из сравниваемой предварительно обученной модели ViT-G/14 (параметр около 2B). Короче говоря, они обучили модель ViT-G/14 для встраивания изображений и модель трансформера для встраивания текстов для встраивания изображений и текста соответственно, чтобы двоичные классификаторы с сигмоидной перекрестной энтропией, использующие скалярное произведение для встраивания изображений и текста, могли точно классифицировать, соответствуют ли их изображения и текст друг другу.
ЭТО ПОХОЖЕ НА CLIP AND ALIGN, НО БОЛЕЕ ЭФФЕКТИВНО, МАСШТАБИРУЕМО И НАДЕЖНО. В то же время, этот метод заключается в предварительном обучении компонента встраивания изображений ViT, поэтому при вставке ViT в PaLI трансформатор встраивания текста отбрасывается.
Давайте посмотрим на полную модель PaLI. Выходные данные кодировщика изображений ViT формируют визуальный маркер перед объединением в пул, линейно сопоставляются и добавляются к встроенному входному текстовому маркеру. Затем эти маркеры передаются в предварительно обученную модель кодировщика-декодера 3B UL2 для создания текстового вывода. Текстовые входные данные для модели обычно содержат запросы, описывающие тип задачи и кодирующие необходимые текстовые входные данные для задачи.
Тренировка
Процесс обучения состоит из нескольких этапов.
Фаза 0: Унимодальная предварительная подготовка. Согласно протоколу обучения SigLIP, кодировщик изображения имеет разрешение обучения 224×224; Текстовый кодер-декодер представляет собой модель 3B UL2, обученную в соответствии с процедурой гибридного шумоподавления, описанной Tay et al.
Этап 1: Мультимодальное обучение. Комбинированная модель PaLI обучается на мультимодальных задачах и данных путем объединения кодировщика изображения с кодировщиком-декодером текста, после чего кодировщик изображения остается замороженным с разрешением 224×224. С помощью эвристической фильтрации качества текста и использования обучающей цели SplitCap основные компоненты смешивания снова извлекаются из набора данных WebLI.
Этап 2: Масштабирование. Входные данные с высоким разрешением являются широко распространенным способом повышения производительности, как потому, что можно воспринимать больше деталей на изображении, так и потому, что модель улучшается за счет увеличения длины последовательности. В этой статье разрешение PaLI-3 увеличено за счет размораживания кодировщика изображения, сохраняя контрольные точки в разрешениях 812×812 и 1064×1064.
Миграция задач. Наконец, для каждой отдельной задачи (бенчмарка) в данной работе выполняется тонкая настройка модели PaLI-3 на обучающих данных задачи с использованием энкодера замороженного изображения ViT; Для большинства задач в этой статье выполняется точная настройка контрольной точки разрешения 812×812, но для обеих задач понимания документов в этой статье разрешение увеличивается до 1064×1064.
Эксперименты и результаты
В ходе эксперимента сначала сравнивались результаты различных моделей ViT в рамках PaLI, и исследователи рассмотрели две модели ViT: Classif и SigLIP.
Результаты, представленные в таблице 1, показывают, что, хотя модель SigLIP отстает в линейной классификации на малых выборках, при использовании PaLI-3 модель SigLIP обеспечивает скромный выигрыш в более простых задачах, таких как субтитры и ответы на вопросы, и огромный выигрыш в более сложных сценариях, а именно в задачах на понимание текста и пространственного понимания.
Исследователи расширили PaLI-3 для предсказания масок сегментации с языковым выводом. Для этого они использовали векторизованный вариационный автоэнкодер (VQ-VAE) Ning et al. (2023). VQ-VAE обучен запоминать 128 маркеров маски, а его кодировщик может помечать маску сегментации размером 64 × 64 пикселя как 16 маркеров маски, которые декодер может преобразовать обратно.
Исследователи обучили PaLI-3 предсказывать одну маску сегментации, сначала выводя 4 координаты в виде текста и представляя их в виде ограничивающих прямоугольников. За ним следуют 16 маркеров маски, которые представляют маски в ограничительной рамке.
Из таблицы 1 видно, что претренинг контраста более эффективен, чем претренинг классификации для таких задач таргетинга. Из приведенной ниже таблицы 3 видно, что полная модель PaLI-3 несколько превосходит известный уровень техники с точки зрения сегментации эталонных выражений.
Затем исследователи оценили PaLI-3 в общей задаче на понимание визуального языка. Как и в своей предыдущей работе, они не использовали внешний модуль OCR, потому что эти тесты редко включали текст в изображениях.
Результаты показывают, что PaLI-3 намного меньше по размеру по сравнению с последними моделями SOTA, но он показывает очень высокие показатели в этих тестах. Для COCO PaLI-3 превосходит все модели, кроме BEiT-3 и 17B и 55B PaLI. На VQAv2 и TallyQA PaLI-3 превосходит все предыдущие модели, кроме PaLI-X. Для миссий OKVQA PaLI-3 уступает только PaLM-E (562B) и PaLI-X (55B), но все же превосходит 32-зарядную модель Flamingo (80B).
В исследовании была проведена точная настройка и оценка модели PaLI-3 на 4 тестах для создания субтитров к видео: MSR-VTT, VATEX, ActivityNet Captions и Spoken Moments in Time. Кроме того, в исследовании было сделано то же самое для 3 тестов видеоответов на вопросы: NExT-QA, MSR-VTT-QA и ActivityNet-QA.
Несмотря на то, что PaLI-3 не использует видеоданные для предварительного обучения, он добился отличных результатов контроля качества видео при небольшом размере модели: современная производительность на MSR-VTT-QA и ActivityNet-QA, а также конкурентоспособные результаты на NextQA. Постоянное совершенствование контроля качества изображений и видео подчеркивает преимущества внедрения сравнительного ViT.
Кроме того, PaLI-3 обеспечивает очень хорошие результаты субтитров к видео, в среднем всего на 3 балла CIDEr ниже результатов SOTA. Учитывая размер модели, PaLI-3 кажется отличным выбором как с точки зрения производительности, так и практичности.
Прямая оценка кодировщика изображения
Исследователи также оценили модель ViT-G, которую можно понимать как не полную модель PaLI-3, как показано в таблице 6.
Во-первых, в исследовании были протестированы возможности классификации изображений с использованием стандартного теста ImageNet и двух его наиболее популярных вариантов. Результаты показывают, что SigLIP немного отстает по точности top-1 и v2, но сопоставимым результатам по ReaL.
Во-вторых, в исследовании сообщается о результатах различных моделей в бенчмарке Crossmodal-3600. Результаты показывают, что модель SigLIP ViT-G значительно лучше, чем более крупная модель ViT-e.
Наконец, в исследовании также сообщалось о результатах линейного зондирования, которые показали, что SigLIP уступает другим моделям.