Добавляя «маркеры» к визуальным подсказкам, Microsoft и другие делают GPT-4V более точным и детализированным

новый метод визуальных подсказок SoM (Set-of-Mark), который улучшил понимание визуального контента мультимодальной большой модели GPT-4V OpenAI.

Первоисточник: Heart of the Machine

Источник изображения: Generated by Unbounded AI

В последнее время мы стали свидетелями значительного прогресса в области больших языковых моделей (LLM). В частности, выпуск генеративных предварительно обученных трансформеров, или GPT, привел к нескольким прорывам в промышленности и академических кругах. С момента выпуска GPT-4 большие мультимодальные модели (LMM) привлекают все больший интерес в исследовательском сообществе, и большая часть работы посвящена созданию мультимодальных моделей GPT-4.

В последнее время GPT-4V (ision) привлек к себе особое внимание благодаря своим превосходным мультимодальным возможностям восприятия и рассуждения. Однако, несмотря на беспрецедентные возможности GPT-4V по пониманию визуального языка, его тонкая визуальная основа (входные данные — картинка и соответствующее описание объекта, выходные данные — блок, описывающий объект) относительно слабы или еще не разработаны.

Например, когда пользователь спрашивает: «Какой объект размещен на левой стороне ноутбука справа?» на рисунке ниже. ГПТ-4В дает неправильный ответ кружке. Затем пользователь спрашивает: «Я хочу найти место у окна, где я могу сесть?». ГПТ-4В тоже ответил неверно.

Осознав вышеперечисленные проблемы, исследователи из Microsoft, Гонконгского университета науки и технологий и других учреждений предложили новый метод машинного зрения Set-of-Mark (SoM) для решения проблемы GPT-4V в задачах тонкого зрения.

* Адрес в газете:

  • Бумажная домашняя страница:

Как показано на рисунке 1 (справа), SoM использует интерактивную модель сегментации, такую как SAM, для разделения изображения на регионы с различными уровнями детализации и добавления к этим областям набора маркеров, таких как буквенно-цифровой, маска, прямоугольник. Используйте изображение с тегом в качестве входных данных, чтобы решить описанную выше проблему.

Давайте сначала посмотрим на эффект, слева GPT-4V, справа GPT-4V + SoM, понятно, что последняя классификация более подробная и точная.

Пример ниже все тот же, и эффект GPT-4V+SoM более очевиден.

Кроме того, в этом исследовании кто-то спросил: «Является ли SoM ручным (ручным вводом) или автоматическим?»

По словам Цзяньвэй Яна, SoM бывает автоматическим или полуавтоматическим. Они собрали множество собственных инструментов сегментации, таких как SEEM, Semantic-SAM и SAM, чтобы помочь пользователям автоматически сегментировать изображения для себя. При этом пользователи также могут выбрать свой регион.

SoM для зрения

Уникальное преимущество использования SoM GPT-4V заключается в том, что он может выводить не только текст. Поскольку каждый маркер конкретно связан с областью изображения, представленной маской, можно отследить маску любого упомянутого маркера в текстовом выводе.

Возможность генерации парного текста и масок позволяет SoM GPT-4V генерировать визуально ассоциативный текст и, что более важно, поддерживать различные задачи тонкого зрения, что является проблемой для распространенных моделей GPT-4V.

Благодаря простоте конструкции SoM позволяет широко использовать GPT-4V для решения различных задач машинного зрения, таких как:

• Сегментация изображений с открытым словарем: Исследование требовало, чтобы GPT-4V дал исчерпывающее представление о категориях всех помеченных регионов, а также о категориях, выбранных из заранее определенного пула.

  • Сегментация ссылок: При наличии ссылочного выражения задача GPT-4V состоит в том, чтобы выбрать область, которая лучше всего соответствует из областей-кандидатов, сгенерированных Image Partitioning Toolbox.
  • Фразовое обоснование: Немного отличаясь от сегментации ссылок, фразовая ассоциация использует полные предложения, состоящие из нескольких существительных. Исследование потребовало, чтобы GPT-4V присвоил соответствующие регионы всем помеченным фразам.
  • Сегментация видеообъектов: Возьмите два изображения в качестве входных данных. Первое изображение — это изображение запроса, содержащее некоторые объекты второго изображения, которые необходимо распознать. Учитывая, что GPT-4V поддерживает несколько изображений в качестве входных данных, SoM также можно применять для коррелированных визуальных эффектов в разных кадрах видео.

Эксперименты и результаты

Исследователи используют стратегию «разделяй и властвуй» для проведения экспериментов и оценок. Для каждого экземпляра они используют новое окно чата, чтобы избежать утечки контекста во время оценки.

В частности, исследователи отобрали небольшое подмножество проверочных данных из каждого набора данных. Для каждого изображения в наборе данных они наложили набор маркеров на область, извлеченную с помощью набора инструментов Сегментация изображений. В то же время, исходя из конкретных задач, исследователи используют различные инструменты сегментации для предложения регионов.

В таблице 1 ниже приведены сведения о настройке для каждой задачи.

Исследователи сравнили свой метод со следующими моделями:

  • Базовая модель GPT-4V для прогнозируемых координат
  • Специфичная для SOTA модель
  • LMM с открытым исходным кодом

Количественные результаты

Подробные результаты экспериментов приведены в таблице 2 ниже.

Во-первых, это задача сегментации изображений. Исследователи сравнили GPT-4V+SoM с мощной моделью сегментации MaskDINO на наборе данных сегментации COCO Panoptic и OpenSeeD на наборе данных сегментации ADE20K Panoptic.

Результаты показывают, что производительность GPT-4V + SoM с нулевой выборкой близка к тонко настроенному MaskDINO и значительно лучше, чем OpenSeeD. Аналогичная производительность GPT-4V на COCO и ADE20K демонстрирует его мощные возможности обобщения для широкого спектра визуальных и семантических задач.

Затем была поставлена задача, в ходе которой исследователи оценивали модельные RES и REC на наборе данных RefCOCOg. Они использовали MaskDINO, чтобы придумать маску и наложить маску и цифры на изображение. Оба mIoU использовались в качестве оценочной метрики и сравнивались с SOTA-специфичными моделями PolyFormer и SEESURE.

Результаты показывают, что GPT-4V+SoM превосходит специализированные модели, такие как Grounding DINO, Polyformer, и недавние LMM с открытым исходным кодом, такие как Shikra, LLaVA-1.5, MiniGPT-v2 и Ferret.

За этим последовала задача на ассоциацию фраз на Flickr30K, где исследователи использовали Grounding DINO для генерации предложений рамок для каждого изображения. GPT-4V+SoM обеспечивает более высокую производительность без выборки, чем GLIPv2 и Grounding INO.

Наконец, исследователи оценили задачу сегментации видео на наборе данных DAVIS2017. GPT-4V+SoM обеспечивает наилучшую производительность отслеживания (78,8 J&F) по сравнению с другими специализированными моделями машинного зрения.

Исследования абляции

Исследователи изучают, как типы тегов влияют на окончательную производительность задач на ассоциацию фраз в наборе данных Flickr30k, и сравнивают два типа тегов. Первый — это цифры и маски, а второй — цифры, маски и коробки.

Результаты показаны в таблице 3 ниже, и добавление дополнительных блоков может значительно повысить производительность.

Кроме того, исследователи изучили, как GPT-4V ведет себя при генерации токенов с аннотациями правды. Они решили заменить прогнозируемую маску сегментации на маску истинности в проверочном наборе RefCOCOg. Это означает, что GPT-4V нужно выбрать только одну фразу из области аннотации. Как и ожидалось, производительность сегментации ссылок может быть дополнительно улучшена, особенно если в модели сегментации отсутствуют некоторые области.

Как показано в таблице 4 ниже, использование масок правды в SoM может повысить производительность RefCOCOg на 14,5% (mIoU).

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить