новий метод візуальних підказок SoM (Set-of-Mark), який покращив розуміння візуального контенту мультимодальної великої моделі OpenAI GPT-4V.
Першоджерело: Heart of the Machine
Джерело зображення: Створено Unbounded AI
Останнім часом ми стали свідками значного прогресу у великих мовних моделях (LLM). Зокрема, випуск генеративних попередньо навчених трансформерів, або GPT, призвів до кількох проривів у промисловості та наукових колах. З моменту випуску GPT-4 великі мультимодальні моделі (LMM) привертають все більший інтерес дослідницької спільноти, багато роботи присвячено створенню мультимодальних GPT-4.
Останнім часом GPT-4V (ision) привернув особливу увагу завдяки своїм чудовим мультимодальним можливостям сприйняття та міркування. Однак, незважаючи на безпрецедентні можливості GPT-4V щодо розуміння візуальної мови, його тонке візуальне обґрунтування (вхід — зображення та відповідний опис об'єкта, вихід — коробка, що описує об'єкт) є відносно слабкою або ще не розробленою.
Наприклад, коли користувач запитує «Який предмет розміщений на лівій стороні ноутбука праворуч?» на малюнку нижче. GPT-4V дає неправильну відповідь на кружку. Потім користувач запитує: «Я хочу знайти місце біля вікна, де я можу сісти?». GPT-4V теж відповів неправильно.
Усвідомивши вищезгадані проблеми, дослідники з Microsoft, Гонконгського університету науки і технологій та інших установ запропонували новий метод зору Set-of-Mark (SoM) для вирішення проблеми GPT-4V у задачах тонкого зору.
* Паперова адреса:
Головна сторінка статті:
Як показано на рисунку 1 (праворуч), SoM використовує інтерактивну модель сегментації, таку як SAM, щоб розділити зображення на області з різними рівнями деталізації та додати набір маркерів до цих областей, таких як буквено-цифровий, маска, прямокутник. Використовуйте зображення з тегом як вхідні дані, щоб вирішити вищезазначену проблему.
Давайте спочатку подивимося на ефект, GPT-4V зліва, GPT-4V + SoM справа, зрозуміло, що остання класифікація більш детальна і точна.
Наведений нижче приклад все той самий, а ефект GPT-4V+SoM більш очевидний.
Крім того, для цього дослідження хтось запитав: «Чи є SoM ручним (ручним введенням) чи автоматичним?»
За словами Цзяньвей Яна, SoM буває автоматичним або напівавтоматичним. Вони зібрали багато власних інструментів сегментації, таких як SEEM, Semantic-SAM і SAM, щоб допомогти користувачам автоматично сегментувати зображення для себе. При цьому користувачі також можуть вибрати свій регіон.
SoM для зору
Унікальною перевагою використання SoM GPT-4V є те, що він може виводити вихід за межами тексту. Оскільки кожен маркер специфічно пов'язаний з областю зображення, представленою маскою, маска будь-якого згаданого маркера у виведеному тексті може бути відстежена.
Можливість генерувати парний текст і маски дозволяє SoM GPT-4V генерувати візуально асоціативний текст і, що важливіше, підтримувати різноманітні завдання тонкого зору, що є проблемою для поширених моделей GPT-4V.
Завдяки простій інженерії SoM дозволяє широко використовувати GPT-4V для різноманітних завдань зору, таких як:
Сегментація зображень відкритого словника: Дослідження вимагало, щоб GPT-4V дав вичерпне уявлення про категорії всіх позначених регіонів, а також про категорії, вибрані із заздалегідь визначеного пулу.
Еталонна сегментація: Задавши еталонний вираз, завдання GPT-4V полягає в тому, щоб вибрати регіон, який найкраще відповідає з областей-кандидатів, згенерованих Image Partitioning Toolbox.
Заземлення фрази: Дещо відрізняючись від сегментації посилань, асоціація фраз використовує повні речення, що складаються з кількох іменникових фраз. Дослідження вимагало від GPT-4V призначити відповідні області всім позначеним фразам.
Сегментація відеооб'єкта: візьміть два зображення як вхідні дані. Перше зображення – це зображення запиту, яке містить деякі об'єкти на другому зображенні, які потрібно розпізнати. Враховуючи, що GPT-4V підтримує кілька зображень як вхід, SoM також можна застосовувати до корельованих візуальних ефектів у кадрах відео.
Експерименти та результати
Дослідники використовують стратегію «розділяй і володарюй» для проведення експериментів і оцінок. Для кожного випадку вони використовують нове вікно чату, щоб уникнути витоку контексту під час оцінювання.
Зокрема, дослідники вибрали невелику підмножину валідаційних даних з кожного набору даних. Для кожного зображення в наборі даних вони накладають набір маркерів на область, витягнуту за допомогою панелі інструментів «Сегментація зображення». Водночас, виходячи з конкретних завдань, дослідники використовують різні інструменти сегментації, щоб запропонувати регіони.
У таблиці 1 нижче наведено відомості про налаштування для кожного завдання.
Дослідники порівняли свій метод з наступними моделями:
Базова модель GPT-4V для прогнозованих координат
Модель, специфічна для SOTA.
LMM з відкритим вихідним кодом
Кількісні результати
Детальні експериментальні результати наведені в таблиці 2 нижче.
По-перше, це завдання сегментації зображень. Дослідники порівняли GPT-4V+SoM з потужною моделлю сегментації MaskDINO на наборі даних COCO Panoptic та OpenSeeD на наборі даних ADE20K Panoptic сегментації.
Результати показують, що продуктивність GPT-4V + SoM з нульовою вибіркою близька до точно налаштованого MaskDINO і значно краща, ніж у OpenSeeD. Подібна продуктивність GPT-4V на COCO та ADE20K демонструє його потужні можливості узагальнення для широкого спектру завдань візуальної та семантичної області.
Потім з'явилося реферальне завдання, де дослідники оцінювали модель ВДЕ та REC на наборі даних RefCOCOg. Вони використовували MaskDINO, щоб придумати маску і накласти маску і цифри на зображення. Обидва mIoU використовувалися як оціночний показник і порівнювалися з моделями, специфічними для SOTA, PolyFormer і SEESURE.
Результати показують, що GPT-4V+SoM перевершує спеціалізовані моделі, такі як Grounding DINO, Polyformer і останні LMM з відкритим вихідним кодом, такі як Shikra, LLaVA-1.5, MiniGPT-v2 і Ferret.
Після цього було виконано завдання на асоціацію фраз на Flickr30K, де дослідники використовували Grounding DINO для створення пропозицій коробок для кожного зображення. GPT-4V+SoM забезпечує вищу продуктивність з нульовою дискретизацією, ніж GLIPv2 та Grounding INO.
Нарешті, дослідники оцінили завдання сегментації відео на DAVIS2017 наборі даних. GPT-4V+SoM досягає найкращої продуктивності відстеження (78,8 J&F) порівняно з іншими спеціалізованими моделями зору.
Абляційні дослідження
Дослідники досліджують, як типи тегів впливають на кінцеву продуктивність завдань на асоціацію фраз у наборі даних Flickr30k, і порівнюють два типи тегів. Перший – це цифри та маски, а другий – цифри, маски та коробки.
Результати наведені в таблиці 3 нижче, а додавання додаткових блоків може значно підвищити продуктивність.
Крім того, дослідники досліджували, як GPT-4V поводиться під час генерації токенів з анотаціями правди. Вони вирішили замінити маску передбачуваної сегментації маскою істини в наборі валідації RefCOCOg. Це означає, що GPT-4V потрібно вибрати лише одну з області фрази анотації. Як і очікувалося, продуктивність еталонної сегментації може бути ще більше покращена, особливо якщо модель сегментації має деякі відсутні регіони.
Як показано в таблиці 4 нижче, використання масок правди в SoM може підвищити продуктивність на RefCOCOg на 14,5% (mIoU).
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Додайте «маркери» до візуальних підказок, Microsoft та інші роблять GPT-4V точнішим і детальнішим
Першоджерело: Heart of the Machine
Останнім часом ми стали свідками значного прогресу у великих мовних моделях (LLM). Зокрема, випуск генеративних попередньо навчених трансформерів, або GPT, призвів до кількох проривів у промисловості та наукових колах. З моменту випуску GPT-4 великі мультимодальні моделі (LMM) привертають все більший інтерес дослідницької спільноти, багато роботи присвячено створенню мультимодальних GPT-4.
Останнім часом GPT-4V (ision) привернув особливу увагу завдяки своїм чудовим мультимодальним можливостям сприйняття та міркування. Однак, незважаючи на безпрецедентні можливості GPT-4V щодо розуміння візуальної мови, його тонке візуальне обґрунтування (вхід — зображення та відповідний опис об'єкта, вихід — коробка, що описує об'єкт) є відносно слабкою або ще не розробленою.
Наприклад, коли користувач запитує «Який предмет розміщений на лівій стороні ноутбука праворуч?» на малюнку нижче. GPT-4V дає неправильну відповідь на кружку. Потім користувач запитує: «Я хочу знайти місце біля вікна, де я можу сісти?». GPT-4V теж відповів неправильно.
Як показано на рисунку 1 (праворуч), SoM використовує інтерактивну модель сегментації, таку як SAM, щоб розділити зображення на області з різними рівнями деталізації та додати набір маркерів до цих областей, таких як буквено-цифровий, маска, прямокутник. Використовуйте зображення з тегом як вхідні дані, щоб вирішити вищезазначену проблему.
Давайте спочатку подивимося на ефект, GPT-4V зліва, GPT-4V + SoM справа, зрозуміло, що остання класифікація більш детальна і точна.
Унікальною перевагою використання SoM GPT-4V є те, що він може виводити вихід за межами тексту. Оскільки кожен маркер специфічно пов'язаний з областю зображення, представленою маскою, маска будь-якого згаданого маркера у виведеному тексті може бути відстежена.
Завдяки простій інженерії SoM дозволяє широко використовувати GPT-4V для різноманітних завдань зору, таких як:
Експерименти та результати
Дослідники використовують стратегію «розділяй і володарюй» для проведення експериментів і оцінок. Для кожного випадку вони використовують нове вікно чату, щоб уникнути витоку контексту під час оцінювання.
Зокрема, дослідники вибрали невелику підмножину валідаційних даних з кожного набору даних. Для кожного зображення в наборі даних вони накладають набір маркерів на область, витягнуту за допомогою панелі інструментів «Сегментація зображення». Водночас, виходячи з конкретних завдань, дослідники використовують різні інструменти сегментації, щоб запропонувати регіони.
У таблиці 1 нижче наведено відомості про налаштування для кожного завдання.
Кількісні результати
Детальні експериментальні результати наведені в таблиці 2 нижче.
Результати показують, що продуктивність GPT-4V + SoM з нульовою вибіркою близька до точно налаштованого MaskDINO і значно краща, ніж у OpenSeeD. Подібна продуктивність GPT-4V на COCO та ADE20K демонструє його потужні можливості узагальнення для широкого спектру завдань візуальної та семантичної області.
Потім з'явилося реферальне завдання, де дослідники оцінювали модель ВДЕ та REC на наборі даних RefCOCOg. Вони використовували MaskDINO, щоб придумати маску і накласти маску і цифри на зображення. Обидва mIoU використовувалися як оціночний показник і порівнювалися з моделями, специфічними для SOTA, PolyFormer і SEESURE.
Результати показують, що GPT-4V+SoM перевершує спеціалізовані моделі, такі як Grounding DINO, Polyformer і останні LMM з відкритим вихідним кодом, такі як Shikra, LLaVA-1.5, MiniGPT-v2 і Ferret.
Після цього було виконано завдання на асоціацію фраз на Flickr30K, де дослідники використовували Grounding DINO для створення пропозицій коробок для кожного зображення. GPT-4V+SoM забезпечує вищу продуктивність з нульовою дискретизацією, ніж GLIPv2 та Grounding INO.
Нарешті, дослідники оцінили завдання сегментації відео на DAVIS2017 наборі даних. GPT-4V+SoM досягає найкращої продуктивності відстеження (78,8 J&F) порівняно з іншими спеціалізованими моделями зору.
Абляційні дослідження
Дослідники досліджують, як типи тегів впливають на кінцеву продуктивність завдань на асоціацію фраз у наборі даних Flickr30k, і порівнюють два типи тегів. Перший – це цифри та маски, а другий – цифри, маски та коробки.
Результати наведені в таблиці 3 нижче, а додавання додаткових блоків може значно підвищити продуктивність.
Як показано в таблиці 4 нижче, використання масок правди в SoM може підвищити продуктивність на RefCOCOg на 14,5% (mIoU).