une nouvelle méthode de repère visuel SoM (Set-of-Mark), qui a amélioré la compréhension du contenu visuel du grand modèle multimodal GPT-4V d’OpenAI.
Source originale : Heart of the Machine
Source de l’image : Généré par Unbounded AI
Ces derniers temps, nous avons assisté à des avancées significatives dans les grands modèles de langage (LLM). En particulier, la sortie de transformateurs génératifs pré-entraînés, ou GPT, a conduit à plusieurs percées dans l’industrie et le monde universitaire. Depuis la sortie de GPT-4, les grands modèles multimodaux (LMM) ont suscité un intérêt croissant dans la communauté des chercheurs, avec beaucoup de travail consacré à la construction de GPT-4 multimodaux.
Récemment, GPT-4V (ision) a fait l’objet d’une attention particulière en raison de ses excellentes capacités de perception et de raisonnement multimodales. Cependant, malgré les capacités sans précédent de compréhension du langage visuel du GPT-4V, son ancrage visuel à grain fin (l’entrée est une image et la description de l’objet correspondante, la sortie est une boîte décrivant un objet) est relativement faible, ou n’a pas encore été développé.
Par exemple, lorsqu’un utilisateur demande « Quel objet est placé sur le côté gauche de l’ordinateur portable à droite ? » dans la figure ci-dessous. GPT-4V donne la mauvaise réponse à la tasse. L’utilisateur demande alors : « Je veux trouver un siège près de la fenêtre, où puis-je m’asseoir ? » GPT-4V a également mal répondu.
Après avoir pris conscience des problèmes ci-dessus, des chercheurs de Microsoft, de l’Université des sciences et technologies de Hong Kong et d’autres institutions ont proposé une nouvelle méthode de vision Set-of-Mark (SoM) pour résoudre le problème de GPT-4V dans des tâches de vision à grain fin.
* Adresse papier :
Page d’accueil papier :
Comme le montre la figure 1 (à droite), le SoM utilise un modèle de segmentation interactif tel que SAM pour diviser l’image en régions à différents niveaux de granularité et ajouter un ensemble de marqueurs à ces régions, tels que alphanumérique, masque, boîte. Utilisez une image avec une balise en entrée pour résoudre le problème ci-dessus.
Jetons d’abord un coup d’œil à l’effet, GPT-4V à gauche, GPT-4V + SoM à droite, il est clair que cette dernière classification est plus détaillée et plus précise.
L’exemple ci-dessous est toujours le même, et l’effet GPT-4V+SoM est plus évident.
De plus, pour cette étude, quelqu’un a demandé : « Le SoM est-il manuel (saisie manuelle) ou automatique ? »
Selon Jianwei Yang, le SoM est automatique ou semi-automatique. Ils ont compilé un grand nombre de leurs propres outils de segmentation, tels que SEEM, Semantic-SAM et SAM, pour aider les utilisateurs à segmenter automatiquement les images pour eux-mêmes. Dans le même temps, les utilisateurs peuvent également choisir leur propre région.
SoM pour la vision
L’avantage unique de l’utilisation du SoM GPT-4V est qu’il peut produire une sortie au-delà du texte. Étant donné que chaque marqueur est spécifiquement associé à une région de l’image représentée par un masque, le masque de tout marqueur mentionné dans la sortie de texte peut être tracé.
La possibilité de générer du texte et des masques appariés permet à SoM GPT-4V de générer du texte visuellement associatif et, plus important encore, de prendre en charge une variété de tâches de vision fines, ce qui est un défi pour les modèles GPT-4V courants.
Grâce à une ingénierie simple, SoM permet au GPT-4V d’être largement utilisé pour une variété de tâches de vision, telles que :
Segmentation d’images à vocabulaire ouvert : L’étude a demandé à GPT-4V de donner une représentation exhaustive des catégories de toutes les régions étiquetées ainsi que des catégories sélectionnées dans un pool prédéterminé.
Segmentation de référence : À partir d’une expression de référence, la tâche de GPT-4V est de sélectionner la région qui correspond le mieux parmi les régions candidates générées par la boîte à outils de partitionnement d’image.
Ancrage de phrase : Légèrement différente de la segmentation de référence, l’association de phrase utilise des phrases complètes composées de plusieurs phrases nominales. L’étude a demandé à GPT-4V d’attribuer des régions appropriées à toutes les phrases étiquetées.
Segmentation d’objets vidéo : prenez deux images en entrée. La première image est une image de requête qui contient certains des objets de la seconde image qui doivent être reconnus. Étant donné que GPT-4V prend en charge plusieurs images en entrée, les SoM peuvent également être appliqués à des visuels corrélés sur plusieurs images de la vidéo.
Expériences et résultats
Les chercheurs utilisent une stratégie de « diviser pour mieux régner » pour mener des expériences et des évaluations. Pour chaque instance, ils utilisent une nouvelle fenêtre de discussion afin qu’il n’y ait pas de fuite de contexte pendant l’évaluation.
Plus précisément, les chercheurs ont sélectionné un petit sous-ensemble de données de validation à partir de chaque ensemble de données. Pour chaque image du jeu de données, ils ont superposé un ensemble de marqueurs sur la zone extraite à l’aide de la boîte à outils Segmentation d’image. Dans le même temps, sur la base de tâches spécifiques, les chercheurs utilisent différents outils de segmentation pour proposer des régions.
Le tableau 1 ci-dessous répertorie les détails de configuration de chaque tâche.
Les chercheurs ont comparé leur méthode aux modèles suivants :
Modèle de base GPT-4V pour les coordonnées prédites
Modèle spécifique à SOTA
LMM open source
Résultats quantitatifs
Les résultats expérimentaux détaillés sont présentés dans le tableau 2 ci-dessous.
La première est la tâche de segmentation d’image. Les chercheurs ont comparé GPT-4V+SoM avec le puissant modèle de segmentation MaskDINO sur l’ensemble de données de segmentation panoptique COCO et OpenSeeD sur l’ensemble de données de segmentation panoptique ADE20K.
Les résultats montrent que les performances sans échantillon de GPT-4V + SoM sont proches de celles du MaskDINO et nettement meilleures que celles d’OpenSeeD. Des performances similaires de GPT-4V sur COCO et ADE20K démontrent ses puissantes capacités de généralisation pour un large éventail de tâches de domaine visuel et sémantique.
Vient ensuite la tâche référente, où les chercheurs évaluent le modèle RES et REC sur l’ensemble de données RefCOCOg. Ils ont utilisé MaskDINO pour créer un masque et superposer le masque et les chiffres sur l’image. Les deux mIoU ont été utilisés comme mesure d’évaluation et comparés aux modèles spécifiques à SOTA, PolyFormer et SEESURE.
Les résultats montrent que GPT-4V+SoM bat les modèles spécialisés tels que Grounding DINO, Polyformer et les LMM open source récents tels que Shikra, LLaVA-1.5, MiniGPT-v2 et Ferret.
Cela a été suivi par la tâche d’association de phrases sur Flickr30K, où les chercheurs ont utilisé Grounding DINO pour générer des suggestions de boîtes pour chaque image. Le GPT-4V+SoM atteint des performances sans échantillon plus élevées que GLIPv2 et Grounding INO.
Enfin, les chercheurs ont évalué la tâche de segmentation vidéo sur l’ensemble de données DAVIS2017. Le GPT-4V+SoM atteint les meilleures performances de suivi (78,8 J&F) par rapport aux autres modèles de vision spécialisés.
Études d’ablation
Les chercheurs explorent comment les types de balises affectent les performances finales des tâches d’association de phrases sur l’ensemble de données Flickr30k et comparent les deux types de balises. Le premier est constitué de chiffres et de masques, et le second de nombres, de masques et de boîtes.
Les résultats sont présentés dans le tableau 3 ci-dessous, et l’ajout de boîtes supplémentaires peut améliorer considérablement les performances.
En outre, les chercheurs ont exploré le comportement de GPT-4V lors de la génération de jetons avec des annotations de vérité. Ils ont choisi de remplacer le masque de segmentation prédit par un masque de vérité dans l’ensemble de validation RefCOCOg. Cela signifie que le GPT-4V n’a besoin d’en sélectionner qu’un dans la zone de phrase d’annotation. Comme on pouvait s’y attendre, les performances de la segmentation de référence peuvent être encore améliorées, en particulier si le modèle de segmentation comporte des régions manquantes.
Comme le montre le tableau 4 ci-dessous, l’utilisation de masques de vérité dans SoM peut améliorer les performances sur RefCOCOg de 14,5 % (mIoU).
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Ajoutez des « marqueurs » aux repères visuels, Microsoft et d’autres rendent GPT-4V plus précis et plus détaillé
Source originale : Heart of the Machine
Ces derniers temps, nous avons assisté à des avancées significatives dans les grands modèles de langage (LLM). En particulier, la sortie de transformateurs génératifs pré-entraînés, ou GPT, a conduit à plusieurs percées dans l’industrie et le monde universitaire. Depuis la sortie de GPT-4, les grands modèles multimodaux (LMM) ont suscité un intérêt croissant dans la communauté des chercheurs, avec beaucoup de travail consacré à la construction de GPT-4 multimodaux.
Récemment, GPT-4V (ision) a fait l’objet d’une attention particulière en raison de ses excellentes capacités de perception et de raisonnement multimodales. Cependant, malgré les capacités sans précédent de compréhension du langage visuel du GPT-4V, son ancrage visuel à grain fin (l’entrée est une image et la description de l’objet correspondante, la sortie est une boîte décrivant un objet) est relativement faible, ou n’a pas encore été développé.
Par exemple, lorsqu’un utilisateur demande « Quel objet est placé sur le côté gauche de l’ordinateur portable à droite ? » dans la figure ci-dessous. GPT-4V donne la mauvaise réponse à la tasse. L’utilisateur demande alors : « Je veux trouver un siège près de la fenêtre, où puis-je m’asseoir ? » GPT-4V a également mal répondu.
Comme le montre la figure 1 (à droite), le SoM utilise un modèle de segmentation interactif tel que SAM pour diviser l’image en régions à différents niveaux de granularité et ajouter un ensemble de marqueurs à ces régions, tels que alphanumérique, masque, boîte. Utilisez une image avec une balise en entrée pour résoudre le problème ci-dessus.
Jetons d’abord un coup d’œil à l’effet, GPT-4V à gauche, GPT-4V + SoM à droite, il est clair que cette dernière classification est plus détaillée et plus précise.
L’avantage unique de l’utilisation du SoM GPT-4V est qu’il peut produire une sortie au-delà du texte. Étant donné que chaque marqueur est spécifiquement associé à une région de l’image représentée par un masque, le masque de tout marqueur mentionné dans la sortie de texte peut être tracé.
Grâce à une ingénierie simple, SoM permet au GPT-4V d’être largement utilisé pour une variété de tâches de vision, telles que :
Expériences et résultats
Les chercheurs utilisent une stratégie de « diviser pour mieux régner » pour mener des expériences et des évaluations. Pour chaque instance, ils utilisent une nouvelle fenêtre de discussion afin qu’il n’y ait pas de fuite de contexte pendant l’évaluation.
Plus précisément, les chercheurs ont sélectionné un petit sous-ensemble de données de validation à partir de chaque ensemble de données. Pour chaque image du jeu de données, ils ont superposé un ensemble de marqueurs sur la zone extraite à l’aide de la boîte à outils Segmentation d’image. Dans le même temps, sur la base de tâches spécifiques, les chercheurs utilisent différents outils de segmentation pour proposer des régions.
Le tableau 1 ci-dessous répertorie les détails de configuration de chaque tâche.
Résultats quantitatifs
Les résultats expérimentaux détaillés sont présentés dans le tableau 2 ci-dessous.
Les résultats montrent que les performances sans échantillon de GPT-4V + SoM sont proches de celles du MaskDINO et nettement meilleures que celles d’OpenSeeD. Des performances similaires de GPT-4V sur COCO et ADE20K démontrent ses puissantes capacités de généralisation pour un large éventail de tâches de domaine visuel et sémantique.
Vient ensuite la tâche référente, où les chercheurs évaluent le modèle RES et REC sur l’ensemble de données RefCOCOg. Ils ont utilisé MaskDINO pour créer un masque et superposer le masque et les chiffres sur l’image. Les deux mIoU ont été utilisés comme mesure d’évaluation et comparés aux modèles spécifiques à SOTA, PolyFormer et SEESURE.
Les résultats montrent que GPT-4V+SoM bat les modèles spécialisés tels que Grounding DINO, Polyformer et les LMM open source récents tels que Shikra, LLaVA-1.5, MiniGPT-v2 et Ferret.
Cela a été suivi par la tâche d’association de phrases sur Flickr30K, où les chercheurs ont utilisé Grounding DINO pour générer des suggestions de boîtes pour chaque image. Le GPT-4V+SoM atteint des performances sans échantillon plus élevées que GLIPv2 et Grounding INO.
Enfin, les chercheurs ont évalué la tâche de segmentation vidéo sur l’ensemble de données DAVIS2017. Le GPT-4V+SoM atteint les meilleures performances de suivi (78,8 J&F) par rapport aux autres modèles de vision spécialisés.
Études d’ablation
Les chercheurs explorent comment les types de balises affectent les performances finales des tâches d’association de phrases sur l’ensemble de données Flickr30k et comparent les deux types de balises. Le premier est constitué de chiffres et de masques, et le second de nombres, de masques et de boîtes.
Les résultats sont présentés dans le tableau 3 ci-dessous, et l’ajout de boîtes supplémentaires peut améliorer considérablement les performances.
Comme le montre le tableau 4 ci-dessous, l’utilisation de masques de vérité dans SoM peut améliorer les performances sur RefCOCOg de 14,5 % (mIoU).