Добавляя «маркеры» к визуальным подсказкам, Microsoft и другие делают GPT-4V более точным и детализированным

2023-10-24 02:36:04

новый метод визуальных подсказок SoM (Set-of-Mark), который улучшил понимание визуального контента мультимодальной большой модели GPT-4V OpenAI.

Первоисточник: Heart of the Machine

Источник изображения: Generated by Unbounded AI

В последнее время мы стали свидетелями значительного прогресса в области больших языковых моделей (LLM). В частности, выпуск генеративных предварительно обученных трансформеров, или GPT, привел к нескольким прорывам в промышленности и академических кругах. С момента выпуска GPT-4 большие мультимодальные модели (LMM) привлекают все больший интерес в исследовательском сообществе, и большая часть работы посвящена созданию мультимодальных моделей GPT-4.

В последнее время GPT-4V (ision) привлек к себе особое внимание благодаря своим превосходным мультимодальным возможностям восприятия и рассуждения. Однако, несмотря на беспрецедентные возможности GPT-4V по пониманию визуального языка, его тонкая визуальная основа (входные данные — картинка и соответствующее описание объекта, выходные данные — блок, описывающий объект) относительно слабы или еще не разработаны.

Например, когда пользователь спрашивает: «Какой объект размещен на левой стороне ноутбука справа?» на рисунке ниже. ГПТ-4В дает неправильный ответ кружке. Затем пользователь спрашивает: «Я хочу найти место у окна, где я могу сесть?». ГПТ-4В тоже ответил неверно.

Осознав вышеперечисленные проблемы, исследователи из Microsoft, Гонконгского университета науки и технологий и других учреждений предложили новый метод машинного зрения Set-of-Mark (SoM) для решения проблемы GPT-4V в задачах тонкого зрения.

* Адрес в газете:

Бумажная домашняя страница:

Как показано на рисунке 1 (справа), SoM использует интерактивную модель сегментации, такую как SAM, для разделения изображения на регионы с различными уровнями детализации и добавления к этим областям набора маркеров, таких как буквенно-цифровой, маска, прямоугольник. Используйте изображение с тегом в качестве входных данных, чтобы решить описанную выше проблему.

Давайте сначала посмотрим на эффект, слева GPT-4V, справа GPT-4V + SoM, понятно, что последняя классификация более подробная и точная.

Пример ниже все тот же, и эффект GPT-4V+SoM более очевиден.

Кроме того, в этом исследовании кто-то спросил: «Является ли SoM ручным (ручным вводом) или автоматическим?»

По словам Цзяньвэй Яна, SoM бывает автоматическим или полуавтоматическим. Они собрали множество собственных инструментов сегментации, таких как SEEM, Semantic-SAM и SAM, чтобы помочь пользователям автоматически сегментировать изображения для себя. При этом пользователи также могут выбрать свой регион.

SoM для зрения

Уникальное преимущество использования SoM GPT-4V заключается в том, что он может выводить не только текст. Поскольку каждый маркер конкретно связан с областью изображения, представленной маской, можно отследить маску любого упомянутого маркера в текстовом выводе.

Возможность генерации парного текста и масок позволяет SoM GPT-4V генерировать визуально ассоциативный текст и, что более важно, поддерживать различные задачи тонкого зрения, что является проблемой для распространенных моделей GPT-4V.

Благодаря простоте конструкции SoM позволяет широко использовать GPT-4V для решения различных задач машинного зрения, таких как:

• Сегментация изображений с открытым словарем: Исследование требовало, чтобы GPT-4V дал исчерпывающее представление о категориях всех помеченных регионов, а также о категориях, выбранных из заранее определенного пула.

Сегментация ссылок: При наличии ссылочного выражения задача GPT-4V состоит в том, чтобы выбрать область, которая лучше всего соответствует из областей-кандидатов, сгенерированных Image Partitioning Toolbox.
Фразовое обоснование: Немного отличаясь от сегментации ссылок, фразовая ассоциация использует полные предложения, состоящие из нескольких существительных. Исследование потребовало, чтобы GPT-4V присвоил соответствующие регионы всем помеченным фразам.
Сегментация видеообъектов: Возьмите два изображения в качестве входных данных. Первое изображение — это изображение запроса, содержащее некоторые объекты второго изображения, которые необходимо распознать. Учитывая, что GPT-4V поддерживает несколько изображений в качестве входных данных, SoM также можно применять для коррелированных визуальных эффектов в разных кадрах видео.

Эксперименты и результаты

Исследователи используют стратегию «разделяй и властвуй» для проведения экспериментов и оценок. Для каждого экземпляра они используют новое окно чата, чтобы избежать утечки контекста во время оценки.

В частности, исследователи отобрали небольшое подмножество проверочных данных из каждого набора данных. Для каждого изображения в наборе данных они наложили набор маркеров на область, извлеченную с помощью набора инструментов Сегментация изображений. В то же время, исходя из конкретных задач, исследователи используют различные инструменты сегментации для предложения регионов.

В таблице 1 ниже приведены сведения о настройке для каждой задачи.

Исследователи сравнили свой метод со следующими моделями:

Базовая модель GPT-4V для прогнозируемых координат
Специфичная для SOTA модель
LMM с открытым исходным кодом

Количественные результаты

Подробные результаты экспериментов приведены в таблице 2 ниже.

Во-первых, это задача сегментации изображений. Исследователи сравнили GPT-4V+SoM с мощной моделью сегментации MaskDINO на наборе данных сегментации COCO Panoptic и OpenSeeD на наборе данных сегментации ADE20K Panoptic.

Результаты показывают, что производительность GPT-4V + SoM с нулевой выборкой близка к тонко настроенному MaskDINO и значительно лучше, чем OpenSeeD. Аналогичная производительность GPT-4V на COCO и ADE20K демонстрирует его мощные возможности обобщения для широкого спектра визуальных и семантических задач.

Затем была поставлена задача, в ходе которой исследователи оценивали модельные RES и REC на наборе данных RefCOCOg. Они использовали MaskDINO, чтобы придумать маску и наложить маску и цифры на изображение. Оба mIoU использовались в качестве оценочной метрики и сравнивались с SOTA-специфичными моделями PolyFormer и SEESURE.

Результаты показывают, что GPT-4V+SoM превосходит специализированные модели, такие как Grounding DINO, Polyformer, и недавние LMM с открытым исходным кодом, такие как Shikra, LLaVA-1.5, MiniGPT-v2 и Ferret.

За этим последовала задача на ассоциацию фраз на Flickr30K, где исследователи использовали Grounding DINO для генерации предложений рамок для каждого изображения. GPT-4V+SoM обеспечивает более высокую производительность без выборки, чем GLIPv2 и Grounding INO.

Наконец, исследователи оценили задачу сегментации видео на наборе данных DAVIS2017. GPT-4V+SoM обеспечивает наилучшую производительность отслеживания (78,8 J&F) по сравнению с другими специализированными моделями машинного зрения.

Исследования абляции

Исследователи изучают, как типы тегов влияют на окончательную производительность задач на ассоциацию фраз в наборе данных Flickr30k, и сравнивают два типа тегов. Первый — это цифры и маски, а второй — цифры, маски и коробки.

Результаты показаны в таблице 3 ниже, и добавление дополнительных блоков может значительно повысить производительность.

Кроме того, исследователи изучили, как GPT-4V ведет себя при генерации токенов с аннотациями правды. Они решили заменить прогнозируемую маску сегментации на маску истинности в проверочном наборе RefCOCOg. Это означает, что GPT-4V нужно выбрать только одну фразу из области аннотации. Как и ожидалось, производительность сегментации ссылок может быть дополнительно улучшена, особенно если в модели сегментации отсутствуют некоторые области.

Как показано в таблице 4 ниже, использование масок правды в SoM может повысить производительность RefCOCOg на 14,5% (mIoU).

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
1/3
1Show My Alpha Points
17k Популярность
2SOL Futures Reach New High
65 Популярность
3ETH ETF Sees 12 Weeks of Inflows
89 Популярность
4Crypto Market Rebound
171k Популярность
5CandyDrop Airdrop Event 6.0
96k Популярность

Закрепить

Карта сайта