новый метод визуальных подсказок SoM (Set-of-Mark), который улучшил понимание визуального контента мультимодальной большой модели GPT-4V OpenAI.
Первоисточник: Heart of the Machine
Источник изображения: Generated by Unbounded AI
В последнее время мы стали свидетелями значительного прогресса в области больших языковых моделей (LLM). В частности, выпуск генеративных предварительно обученных трансформеров, или GPT, привел к нескольким прорывам в промышленности и академических кругах. С момента выпуска GPT-4 большие мультимодальные модели (LMM) привлекают все больший интерес в исследовательском сообществе, и большая часть работы посвящена созданию мультимодальных моделей GPT-4.
В последнее время GPT-4V (ision) привлек к себе особое внимание благодаря своим превосходным мультимодальным возможностям восприятия и рассуждения. Однако, несмотря на беспрецедентные возможности GPT-4V по пониманию визуального языка, его тонкая визуальная основа (входные данные — картинка и соответствующее описание объекта, выходные данные — блок, описывающий объект) относительно слабы или еще не разработаны.
Например, когда пользователь спрашивает: «Какой объект размещен на левой стороне ноутбука справа?» на рисунке ниже. ГПТ-4В дает неправильный ответ кружке. Затем пользователь спрашивает: «Я хочу найти место у окна, где я могу сесть?». ГПТ-4В тоже ответил неверно.
Осознав вышеперечисленные проблемы, исследователи из Microsoft, Гонконгского университета науки и технологий и других учреждений предложили новый метод машинного зрения Set-of-Mark (SoM) для решения проблемы GPT-4V в задачах тонкого зрения.
* Адрес в газете:
Бумажная домашняя страница:
Как показано на рисунке 1 (справа), SoM использует интерактивную модель сегментации, такую как SAM, для разделения изображения на регионы с различными уровнями детализации и добавления к этим областям набора маркеров, таких как буквенно-цифровой, маска, прямоугольник. Используйте изображение с тегом в качестве входных данных, чтобы решить описанную выше проблему.
Давайте сначала посмотрим на эффект, слева GPT-4V, справа GPT-4V + SoM, понятно, что последняя классификация более подробная и точная.
Пример ниже все тот же, и эффект GPT-4V+SoM более очевиден.
Кроме того, в этом исследовании кто-то спросил: «Является ли SoM ручным (ручным вводом) или автоматическим?»
По словам Цзяньвэй Яна, SoM бывает автоматическим или полуавтоматическим. Они собрали множество собственных инструментов сегментации, таких как SEEM, Semantic-SAM и SAM, чтобы помочь пользователям автоматически сегментировать изображения для себя. При этом пользователи также могут выбрать свой регион.
SoM для зрения
Уникальное преимущество использования SoM GPT-4V заключается в том, что он может выводить не только текст. Поскольку каждый маркер конкретно связан с областью изображения, представленной маской, можно отследить маску любого упомянутого маркера в текстовом выводе.
Возможность генерации парного текста и масок позволяет SoM GPT-4V генерировать визуально ассоциативный текст и, что более важно, поддерживать различные задачи тонкого зрения, что является проблемой для распространенных моделей GPT-4V.
Благодаря простоте конструкции SoM позволяет широко использовать GPT-4V для решения различных задач машинного зрения, таких как:
• Сегментация изображений с открытым словарем: Исследование требовало, чтобы GPT-4V дал исчерпывающее представление о категориях всех помеченных регионов, а также о категориях, выбранных из заранее определенного пула.
Сегментация ссылок: При наличии ссылочного выражения задача GPT-4V состоит в том, чтобы выбрать область, которая лучше всего соответствует из областей-кандидатов, сгенерированных Image Partitioning Toolbox.
Фразовое обоснование: Немного отличаясь от сегментации ссылок, фразовая ассоциация использует полные предложения, состоящие из нескольких существительных. Исследование потребовало, чтобы GPT-4V присвоил соответствующие регионы всем помеченным фразам.
Сегментация видеообъектов: Возьмите два изображения в качестве входных данных. Первое изображение — это изображение запроса, содержащее некоторые объекты второго изображения, которые необходимо распознать. Учитывая, что GPT-4V поддерживает несколько изображений в качестве входных данных, SoM также можно применять для коррелированных визуальных эффектов в разных кадрах видео.
Эксперименты и результаты
Исследователи используют стратегию «разделяй и властвуй» для проведения экспериментов и оценок. Для каждого экземпляра они используют новое окно чата, чтобы избежать утечки контекста во время оценки.
В частности, исследователи отобрали небольшое подмножество проверочных данных из каждого набора данных. Для каждого изображения в наборе данных они наложили набор маркеров на область, извлеченную с помощью набора инструментов Сегментация изображений. В то же время, исходя из конкретных задач, исследователи используют различные инструменты сегментации для предложения регионов.
В таблице 1 ниже приведены сведения о настройке для каждой задачи.
Исследователи сравнили свой метод со следующими моделями:
Базовая модель GPT-4V для прогнозируемых координат
Специфичная для SOTA модель
LMM с открытым исходным кодом
Количественные результаты
Подробные результаты экспериментов приведены в таблице 2 ниже.
Во-первых, это задача сегментации изображений. Исследователи сравнили GPT-4V+SoM с мощной моделью сегментации MaskDINO на наборе данных сегментации COCO Panoptic и OpenSeeD на наборе данных сегментации ADE20K Panoptic.
Результаты показывают, что производительность GPT-4V + SoM с нулевой выборкой близка к тонко настроенному MaskDINO и значительно лучше, чем OpenSeeD. Аналогичная производительность GPT-4V на COCO и ADE20K демонстрирует его мощные возможности обобщения для широкого спектра визуальных и семантических задач.
Затем была поставлена задача, в ходе которой исследователи оценивали модельные RES и REC на наборе данных RefCOCOg. Они использовали MaskDINO, чтобы придумать маску и наложить маску и цифры на изображение. Оба mIoU использовались в качестве оценочной метрики и сравнивались с SOTA-специфичными моделями PolyFormer и SEESURE.
Результаты показывают, что GPT-4V+SoM превосходит специализированные модели, такие как Grounding DINO, Polyformer, и недавние LMM с открытым исходным кодом, такие как Shikra, LLaVA-1.5, MiniGPT-v2 и Ferret.
За этим последовала задача на ассоциацию фраз на Flickr30K, где исследователи использовали Grounding DINO для генерации предложений рамок для каждого изображения. GPT-4V+SoM обеспечивает более высокую производительность без выборки, чем GLIPv2 и Grounding INO.
Наконец, исследователи оценили задачу сегментации видео на наборе данных DAVIS2017. GPT-4V+SoM обеспечивает наилучшую производительность отслеживания (78,8 J&F) по сравнению с другими специализированными моделями машинного зрения.
Исследования абляции
Исследователи изучают, как типы тегов влияют на окончательную производительность задач на ассоциацию фраз в наборе данных Flickr30k, и сравнивают два типа тегов. Первый — это цифры и маски, а второй — цифры, маски и коробки.
Результаты показаны в таблице 3 ниже, и добавление дополнительных блоков может значительно повысить производительность.
Кроме того, исследователи изучили, как GPT-4V ведет себя при генерации токенов с аннотациями правды. Они решили заменить прогнозируемую маску сегментации на маску истинности в проверочном наборе RefCOCOg. Это означает, что GPT-4V нужно выбрать только одну фразу из области аннотации. Как и ожидалось, производительность сегментации ссылок может быть дополнительно улучшена, особенно если в модели сегментации отсутствуют некоторые области.
Как показано в таблице 4 ниже, использование масок правды в SoM может повысить производительность RefCOCOg на 14,5% (mIoU).
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Добавляя «маркеры» к визуальным подсказкам, Microsoft и другие делают GPT-4V более точным и детализированным
Первоисточник: Heart of the Machine
В последнее время мы стали свидетелями значительного прогресса в области больших языковых моделей (LLM). В частности, выпуск генеративных предварительно обученных трансформеров, или GPT, привел к нескольким прорывам в промышленности и академических кругах. С момента выпуска GPT-4 большие мультимодальные модели (LMM) привлекают все больший интерес в исследовательском сообществе, и большая часть работы посвящена созданию мультимодальных моделей GPT-4.
В последнее время GPT-4V (ision) привлек к себе особое внимание благодаря своим превосходным мультимодальным возможностям восприятия и рассуждения. Однако, несмотря на беспрецедентные возможности GPT-4V по пониманию визуального языка, его тонкая визуальная основа (входные данные — картинка и соответствующее описание объекта, выходные данные — блок, описывающий объект) относительно слабы или еще не разработаны.
Например, когда пользователь спрашивает: «Какой объект размещен на левой стороне ноутбука справа?» на рисунке ниже. ГПТ-4В дает неправильный ответ кружке. Затем пользователь спрашивает: «Я хочу найти место у окна, где я могу сесть?». ГПТ-4В тоже ответил неверно.
Как показано на рисунке 1 (справа), SoM использует интерактивную модель сегментации, такую как SAM, для разделения изображения на регионы с различными уровнями детализации и добавления к этим областям набора маркеров, таких как буквенно-цифровой, маска, прямоугольник. Используйте изображение с тегом в качестве входных данных, чтобы решить описанную выше проблему.
Давайте сначала посмотрим на эффект, слева GPT-4V, справа GPT-4V + SoM, понятно, что последняя классификация более подробная и точная.
Уникальное преимущество использования SoM GPT-4V заключается в том, что он может выводить не только текст. Поскольку каждый маркер конкретно связан с областью изображения, представленной маской, можно отследить маску любого упомянутого маркера в текстовом выводе.
Благодаря простоте конструкции SoM позволяет широко использовать GPT-4V для решения различных задач машинного зрения, таких как:
• Сегментация изображений с открытым словарем: Исследование требовало, чтобы GPT-4V дал исчерпывающее представление о категориях всех помеченных регионов, а также о категориях, выбранных из заранее определенного пула.
Эксперименты и результаты
Исследователи используют стратегию «разделяй и властвуй» для проведения экспериментов и оценок. Для каждого экземпляра они используют новое окно чата, чтобы избежать утечки контекста во время оценки.
В частности, исследователи отобрали небольшое подмножество проверочных данных из каждого набора данных. Для каждого изображения в наборе данных они наложили набор маркеров на область, извлеченную с помощью набора инструментов Сегментация изображений. В то же время, исходя из конкретных задач, исследователи используют различные инструменты сегментации для предложения регионов.
В таблице 1 ниже приведены сведения о настройке для каждой задачи.
Количественные результаты
Подробные результаты экспериментов приведены в таблице 2 ниже.
Результаты показывают, что производительность GPT-4V + SoM с нулевой выборкой близка к тонко настроенному MaskDINO и значительно лучше, чем OpenSeeD. Аналогичная производительность GPT-4V на COCO и ADE20K демонстрирует его мощные возможности обобщения для широкого спектра визуальных и семантических задач.
Затем была поставлена задача, в ходе которой исследователи оценивали модельные RES и REC на наборе данных RefCOCOg. Они использовали MaskDINO, чтобы придумать маску и наложить маску и цифры на изображение. Оба mIoU использовались в качестве оценочной метрики и сравнивались с SOTA-специфичными моделями PolyFormer и SEESURE.
Результаты показывают, что GPT-4V+SoM превосходит специализированные модели, такие как Grounding DINO, Polyformer, и недавние LMM с открытым исходным кодом, такие как Shikra, LLaVA-1.5, MiniGPT-v2 и Ferret.
За этим последовала задача на ассоциацию фраз на Flickr30K, где исследователи использовали Grounding DINO для генерации предложений рамок для каждого изображения. GPT-4V+SoM обеспечивает более высокую производительность без выборки, чем GLIPv2 и Grounding INO.
Наконец, исследователи оценили задачу сегментации видео на наборе данных DAVIS2017. GPT-4V+SoM обеспечивает наилучшую производительность отслеживания (78,8 J&F) по сравнению с другими специализированными моделями машинного зрения.
Исследования абляции
Исследователи изучают, как типы тегов влияют на окончательную производительность задач на ассоциацию фраз в наборе данных Flickr30k, и сравнивают два типа тегов. Первый — это цифры и маски, а второй — цифры, маски и коробки.
Результаты показаны в таблице 3 ниже, и добавление дополнительных блоков может значительно повысить производительность.
Как показано в таблице 4 ниже, использование масок правды в SoM может повысить производительность RefCOCOg на 14,5% (mIoU).