Visage GPT-4V ! Le modèle de langage visuel PaLI-3 de Google est sorti, plus petit, plus rapide et plus fort

2023-10-17 09:36:42

Source : Manchettes académiques

Source de l’image : Générée par Unbounded AI

Le mois dernier, ChatGPT a officiellement lancé des capacités de reconnaissance d’images et de parole.

Plus tôt ce mois-ci, Microsoft a publié une version multimodale de 166 pages de documents liés à GPT-4V, détaillant les fonctions et l’utilisation de GPT-4V, qui a attiré l’attention de l’industrie.

Cependant, Google n’est pas en reste dans la course aux modèles de langage visuel. **

Récemment, Google Research, Google DeepMind et Google Cloud ont lancé conjointement un modèle de langage visuel (VLM) plus petit, plus rapide et plus puissant, PaLI-3, qui est considérablement compétitif par rapport à des modèles similaires 10 fois plus grands.

Les chercheurs ont comparé le modèle de transformateur visuel (ViT) pré-entraîné à l’aide de cibles catégorielles avec le modèle contrastif pré-entraîné (SigLIP) et ont constaté que si PaLI-3 obtenait des résultats légèrement médiocres sur les benchmarks de classification d’images standard, PaLI basé sur SigLIP présentait d’excellentes performances dans divers benchmarks multimodaux, en particulier dans la localisation et la compréhension de texte.

Le document de recherche, intitulé « PaLI-3 Vision Language Models: Smaller, Faster, Stronger », a été publié sur le site Web de prépublication arXiv.

L’équipe de recherche estime que PaLI-3, avec seulement 5 milliards de paramètres, a relancé la recherche sur les composants de base des VLM complexes, ce qui pourrait conduire au développement d’une nouvelle génération de modèles plus grands.

Apprentissage multimodal à plus haute résolution

Plus récemment, les grands modèles de langage visuel ont utilisé des encodeurs d’images pré-entraînés dans leurs modèles plus grands, dont certains sont pré-entraînés à l’aide de la classification supervisée (par exemple, PaLI, PaLI-X, Flamingo, PaLM-E), d’autres à l’aide d’encodeurs CLIP pré-entraînés (par exemple, BLIPv2, CrossTVR, ChatBridge) et d’autres encore utilisant un pré-entraînement multimodal personnalisé (par exemple, BEiT3, CoCa, SimVLM).

**La méthode d’apprentissage de cette étude se compose de trois composantes principales : le pré-entraînement contrastif des encodeurs d’images sur des données textuelles d’image à l’échelle du réseau, l’amélioration de la fusion des données d’apprentissage multimodal PaLI et l’entraînement à des résolutions plus élevées. **

Dans la phase de pré-entraînement monomodal, l’encodeur d’image utilise le protocole d’entraînement SigLIP pour un pré-entraînement comparatif sur l’appariement du texte de l’image sur le Web. Les chercheurs ont utilisé une méthode de filtrage basée sur un modèle qui a préservé environ 40% des appariements. L’encodeur d’image est entraîné à une résolution de 224×224. L’encodeur-décodeur de texte est un modèle UL2 3B entraîné sur un programme de débruitage hybride.

Dans la phase d’entraînement multimodal, les chercheurs ont combiné un encodeur d’image avec un encodeur-décodeur de texte pour former un modèle PaLI. Ce modèle est entraîné pour des tâches multimodales, en gardant l’encodeur d’image figé, en utilisant la résolution native (224×224).

Le mélange principal de données provient des jeux de données WebLI, filtrés et utilisés avec des cibles d’entraînement spécifiques. D’autres éléments incluent le sous-titrage multilingue, le traitement OCR, le VQA et le VQG multilingues, le VQA sensible aux objets et la détection d’objets. Bien qu’il n’inclue pas de tâches ou de données provenant de la vidéo, le PaLI-3 reste compétitif sur ces bancs d’essai grâce à son puissant encodeur d’image. De plus, la compréhension des documents et des images a été encore améliorée par l’ajout de documents PDF contenant du texte dense et des images Web, telles que des affiches ou des documents, ainsi que du texte dans plus de 100 langues, à WebLI.

Pendant la phase d’augmentation de la résolution, la résolution de PaLI-3 est étudiée en affinant l’ensemble du modèle (dégel de l’encodeur d’image) et en utilisant de courtes leçons qui augmentent progressivement la résolution, en maintenant des points de contrôle à des résolutions de 812×812 et 1064×1064. La fusion des données se concentre principalement sur les parties qui impliquent le positionnement visuel du texte et la détection d’objets.

Améliorer la compréhension de l’image et la tâche de positionnement du texte

Tout d’abord, les chercheurs ont effectué une comparaison contrôlée de différents modèles ViT dans le cadre de PaLI. Il a été constaté que, bien que le modèle SigLIP ait de faibles performances dans la classification linéaire de petits échantillons, lorsqu’il est utilisé dans PaLI-3, le modèle SigLIP a fourni des gains de performance modestes sur des tâches « simples » telles que le sous-titrage et la réponse aux questions, et de grandes améliorations sur des tâches de compréhension spatiale et de texte de scène plus « complexes » telles que les variantes TextVQA et RefCOCO. **

PaLI-3 a ensuite été évalué dans le cadre d’une tâche de compréhension de texte positionnée visuellement, avec des images dans des ensembles de données allant d’images naturelles, d’illustrations, de documents et d’interfaces utilisateur. **PaLI-3 atteint des performances de pointe sur la plupart des benchmarks de sous-titres et VQA, avec ou sans entrée OCR externe. Les seules exceptions sont AI2D et ChartQA, qui nécessitent non seulement de la compréhension, mais aussi un raisonnement puissant sur les graphiques. Pour les deux benchmarks, PaLI-3 est légèrement à la traîne par rapport à PaLI-X.

De plus, les chercheurs ont étendu les capacités de PaLI-3 pour prédire les masques de segmentation avec une sortie de type langage. Les résultats expérimentaux montrent que pour ce type de tâche de localisation, le pré-entraînement comparatif est plus efficace que le pré-apprentissage de classification. **Le modèle complet PaLI-3 est légèrement supérieur aux méthodes de pointe en termes de représentation des doigts. **

Dans la section Compréhension de l’image naturelle, PaLI-3 a été évalué sur des tâches générales de compréhension du langage visuel, y compris le sous-titrage COCO et VQAv2,** bien que beaucoup plus petit à l’échelle par rapport aux modèles SOTA récents, PaLI-3 a obtenu de très bons résultats sur ces benchmarks. **

Dans les sections de sous-titrage vidéo et de questions-réponses, les chercheurs ont affiné et évalué le modèle PaLI-3 sur 4 points de référence de sous-titrage vidéo : MSR-VTT, VATEX, ActivityNet Captions et Spoken Moments in Time. Le même test a ensuite été effectué sur 3 benchmarks de réponse aux questions vidéo : NExT-QA, MSR-VTT-QA et ActivityNet-QA. **Bien qu’il n’ait pas effectué de pré-entraînement avec des données vidéo, PaLI-3 a obtenu d’excellents résultats d’assurance qualité vidéo pour un modèle de plus petite taille. **

Dans l’ensemble, dans cette étude, les chercheurs se sont penchés sur le pré-entraînement des codeurs d’images dans VLM, en particulier les modèles de type PaLI. Pour la première fois, les deux méthodes de pré-entraînement de classification et de pré-entraînement de texte image (contraste) sont clairement comparées et il a été constaté que ce dernier conduit à un VLM meilleur et plus efficace, en particulier dans les tâches de localisation et de compréhension de texte.

En outre, les chercheurs notent dans l’article : « Ce n’est qu’un petit aspect de la VLM, et nous espérons que cette étude et ses résultats inspireront une exploration plus approfondie de nombreux autres aspects de l’entraînement VLM. » "

Lien vers le papier :

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime

Récompense
2
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
26k Popularité
2White House Crypto Report
35k Popularité
3Join Alpha RION Airdrop to Earn $40
17k Popularité
4Fed Holds Rates Decision
8k Popularité
5July Spark Program TOP 10 Creators Announced
2k Popularité

Épingler