Le modèle de langage visuel PaLI-3 de Google est sorti, avec des paramètres de seulement 5B, plus petit, plus rapide et plus fort

Dans le domaine des grands modèles multimodaux (langage visuel), tout en concurrençant les paramètres pour gagner en performance, la poursuite de paramètres plus petits, d’une vitesse plus rapide et de performances plus élevées est une autre voie de recherche.

Source de l’image : Généré par Unbounded AI

À l’ère des grands modèles, les paramètres des modèles de langage visuel (VLM) se sont étendus à des dizaines, voire des centaines de milliards, ce qui fait que les performances continuent d’augmenter. Dans le même temps, les modèles plus petits sont toujours importants, ils sont plus faciles à former et à entretenir, plus respectueux de l’environnement et offrent des cycles de recherche plus rapides pour la conception de modèles.

Dans ce domaine, Google Research a lancé l’année dernière un modèle appelé PaLI (Pathways Language and Image). En tant que grand modèle multimodal, l’une des structures clés de PaLI est de réutiliser de grands backbones monomodaux pour la modélisation du langage et de la visualisation, de réutiliser mT5-XXL avec 13B paramètres en termes de langage, et ViT-G avec des paramètres 2B et ViT-e avec des paramètres 4B en termes de vision. À cette époque, PaLI a obtenu de meilleures performances que la plupart des anciens et des nouveaux modèles.

Depuis, Google a continué à se concentrer sur la modélisation à plus petite échelle et a récemment proposé PaLI-3, le modèle de troisième génération de la série PaLI. À l’aide d’un modèle de base pré-entraîné avec seulement 5 paramètres B, ils ont optimisé la méthode d’entraînement et obtenu de nouveaux résultats SOTA compétitifs sur plusieurs benchmarks VLM.

La méthode se compose de trois parties principales, à savoir le pré-entraînement comparatif des encodeurs d’images sur des données textuelles d’images à l’échelle du Web, l’amélioration de l’ensemble de données hybrides pour l’entraînement multimodal PaLI et l’entraînement à une résolution plus élevée.

*Les auteurs proviennent de Google Research, Google DeepMind et Google Cloud. *

Adresse papier :

La figure ci-dessous montre une vue d’ensemble du modèle 5B PaLI-3, où les images sont encodées individuellement dans un jeton visuel en comparant le modèle de vision 2B SigLIP pré-entraîné. Ensuite, avec la requête, ces jetons visuels sont transmis au transformateur UL2 de la structure encodeur-décodeur 3B, qui génère la réponse attendue. Dans cette configuration, par rapport au modèle PaLI précédent d’un modèle pré-entraîné à classification unique, le modèle pré-entraîné fournit un jeton beaucoup plus utile.

Quelle est son efficacité ? PaLI-3 implémente le nouveau SOTA sur les tâches qui nécessitent une compréhension de texte positionnée visuellement et un positionnement cible, y compris 8 tâches de compréhension de texte positionnées visuellement et des tâches de segmentation d’expression de référence sur le jeu de données RefCOCO. PaLI-3 excelle également dans une gamme de tâches de vision classifiées.

En outre, les chercheurs ont également effectué des expériences d’ablation pour comparer avec le modèle de base ViT pré-entraîné à la classification, et ont confirmé la faisabilité d’encodeurs visuels pré-entraînés sur des données textuelles d’image bruitées à l’échelle du Web, devenant ainsi une alternative privilégiée pour l’entraînement sur des données classifiées.

En plus du modèle 5B PaLI-3, les chercheurs ont également utilisé la méthode SigLIP récemment proposée pour construire un modèle de vision contrastive multilingue SOTA avec des paramètres étendus à 2B.

Présentation du modèle

Architecture

À un niveau plus élevé, l’architecture de PaLI-3 suit celle de Chen et al. (2023b ; a) : Le modèle ViT encode l’image en tant que jeton et est transmis au transformateur de la structure encodeur-décodeur avec des entrées de texte telles que des questions, des invites et des instructions, ce qui donne une sortie de texte.

Commençons par la composante visuelle. Les chercheurs ont utilisé la méthode d’entraînement SigLIP pour initialiser l’épine dorsale visuelle de PaLI-3 à partir d’un modèle ViT-G/14 pré-entraîné par comparaison (le paramètre est d’environ 2B). En bref, ils ont entraîné le modèle ViT-G/14 pour l’intégration d’images et le modèle de transformateur d’intégration de texte pour intégrer des images et du texte, respectivement, afin que les classificateurs binaires à entropie croisée sigmoïde utilisant le produit scalaire d’intégration d’image et de texte puissent classer avec précision si leurs images et leur texte respectifs correspondent les uns aux autres.

IL S’AGIT D’UNE MÉTHODE SIMILAIRE À CELLE DE CLIP AND ALIGN, MAIS PLUS EFFICACE, ÉVOLUTIVE ET ROBUSTE. Dans le même temps, cette méthode consiste à pré-entraîner le composant d’incorporation d’image ViT, de sorte que lorsque ViT est inséré dans PaLI, le transformateur d’incorporation de texte est ignoré.

Regardons le modèle complet de PaLI. La sortie de l’encodeur d’image ViT forme un jeton visuel avant la mise en commun et est mappée linéairement et ajoutée au jeton de texte d’entrée intégré. Ces jetons sont ensuite transmis à un modèle d’encodeur-décodeur UL2 3B pré-entraîné pour générer une sortie texte. L’entrée de texte du modèle contient généralement des invites qui décrivent le type de tâche et codent l’entrée de texte nécessaire pour la tâche.

Formation

Le processus de formation se compose de plusieurs étapes.

Phase 0 : Pré-entraînement unimodal. Selon le protocole d’entraînement SigLIP, l’encodeur d’image a une résolution d’apprentissage de 224×224 ; Le codeur-décodeur de texte est un modèle 3B UL2 entraîné selon la procédure hybride de réduction du bruit décrite par Tay et al.

Phase 1 : Formation multimodale. Le modèle PaLI combiné est entraîné sur des tâches et des données multimodales en combinant un encodeur d’image avec un encodeur-décodeur de texte, auquel cas l’encodeur d’image reste figé à une résolution de 224×224. Grâce au filtrage heuristique de la qualité du texte et à l’aide de la cible d’apprentissage SplitCap, les principaux composants de fusion sont à nouveau dérivés du jeu de données WebLI.

Phase 2 : Montée en gamme. L’entrée haute résolution est un moyen largement accepté d’améliorer les performances, à la fois parce que plus de détails dans l’image peuvent être perçus et parce que le modèle est amélioré en augmentant la longueur de la séquence. Cet article augmente la résolution de PaLI-3 en libérant l’encodeur d’image, en maintenant les points de contrôle à des résolutions de 812×812 et 1064×1064.

Migration des tâches. Enfin, pour chaque tâche individuelle (benchmark), cet article affine le modèle PaLI-3 sur les données d’apprentissage de la tâche à l’aide d’un encodeur d’image ViT figé ; Pour la plupart des tâches, cet article affine le point de contrôle de résolution 812×812, mais pour les deux tâches de compréhension de document, cet article augmente la résolution à 1064×1064.

Expériences et résultats

L’expérience a d’abord comparé les résultats de différents modèles ViT dans le cadre PaLI, et les chercheurs ont considéré deux modèles ViT : Classif et SigLIP.

Les résultats, présentés dans le tableau 1, montrent que, bien que le modèle SigLIP soit à la traîne dans la classification linéaire de petits échantillons, en utilisant PaLI-3, le modèle SigLIP offre des gains modestes sur des tâches plus simples telles que le sous-titrage et la réponse aux questions, et des gains énormes sur des scénarios plus complexes, à savoir des tâches de compréhension de texte et d’espace.

De plus, les chercheurs ont évalué PaLI-3 sur les ensembles de données TextCaps, TextVQA, STVQA, OCRVQA, InfographicVQA, DocVQA, ChartQA, Scree2Words, WidgetCap. Les résultats sont présentés dans le tableau 2, où PaLI-3 n’est inférieur que de 0,7 point à la méthode SOTA lors de l’utilisation d’un système OCR externe. Cependant, en l’absence d’un tel système externe, PaLI-3 est supérieur de 4,4 points à la combinaison de toutes les méthodes SOTA. Pour TextCaps, TextVQA, InfographicVQA et DocVQA, PaLI-3 a un avantage de 8 points ou plus.

Segmentation de l’expression de référence

Les chercheurs ont étendu PaLI-3 pour prédire les masques de segmentation avec une sortie semblable à celle du langage. Pour ce faire, ils ont utilisé l’auto-encodeur variationnel vectorisé (VQ-VAE) de Ning et al. (2023). VQ-VAE est entraîné à apprendre 128 jetons de masque, et son encodeur peut marquer un masque de segmentation de 64 × 64 pixels comme 16 jetons de masque, que le décodeur peut reconvertir.

Les chercheurs ont entraîné PaLI-3 à prédire un seul masque de segmentation, en sortant d’abord 4 coordonnées sous forme de texte et en les représentant sous forme de boîtes englobantes. Viennent ensuite 16 jetons de masque, qui représentent les masques à l’intérieur de la boîte englobante.

Le tableau 1 montre que le pré-entraînement de contraste est plus efficace que le pré-entraînement de classification pour de telles tâches de ciblage. Le tableau 3 ci-dessous montre que le modèle complet de PaLI-3 est légèrement supérieur à l’état de la technique en termes de segmentation de l’expression de référence.

Compréhension de l’image

Ensuite, les chercheurs ont évalué PaLI-3 sur une tâche générale de compréhension du langage visuel. Comme pour leurs travaux précédents, ils n’ont pas utilisé de module OCR externe car ces benchmarks impliquaient rarement du texte dans les images.

Les résultats montrent que le PaLI-3 est beaucoup plus petit en taille que les modèles SOTA récents, mais il montre de très bonnes performances dans ces benchmarks. Pour COCO, PaLI-3 est supérieur à tous les modèles sauf BEiT-3 et 17B et 55B PaLI. Sur VQAv2 et TallyQA, PaLI-3 surpasse tous les modèles précédents, à l’exception de PaLI-X. Pour les missions OKVQA, le PaLI-3 n’est devancé que par le PaLM-E (562B) et le PaLI-X (55B), mais surpasse toujours le modèle Flamingo (80B) à 32 coups.

Sous-titres vidéo et Q&A

L’étude a affiné et évalué le modèle PaLI-3 sur 4 points de référence de sous-titrage vidéo : MSR-VTT, VATEX, ActivityNet Captions et Spoken Moments in Time. De plus, l’étude a fait de même sur 3 points de référence de réponse aux questions vidéo : NExT-QA, MSR-VTT-QA et ActivityNet-QA.

Bien qu’il n’ait pas utilisé de données vidéo pour le pré-entraînement, PaLI-3 a obtenu d’excellents résultats en matière d’assurance qualité vidéo avec un modèle de petite taille : performances de pointe sur MSR-VTT-QA et ActivityNet-QA, et résultats compétitifs sur NextQA. L’amélioration continue de l’assurance qualité de l’image et de la vidéo met en évidence les avantages de l’adoption d’une visualisation comparative.

De plus, PaLI-3 obtient de très bons résultats de sous-titres vidéo, avec une moyenne de seulement 3 points CIDEr en dessous des résultats SOTA. Compte tenu de la taille du modèle, le PaLI-3 semble être un excellent choix tant en termes de performances que de praticité.

Évaluation de l’encodeur d’image directe

Les chercheurs ont également évalué le modèle ViT-G, qui peut être compris comme n’étant pas un PaLI-3 complet, comme le montre le tableau 6.

Tout d’abord, l’étude a testé les capacités de classification d’images à l’aide du benchmark standard ImageNet et de ses deux variantes les plus populaires. Les résultats montrent que SigLIP est légèrement à la traîne en termes de précision top-1 et v2, mais des résultats comparables en ReaL.

Deuxièmement, l’étude rapporte les résultats de différents modèles sur le benchmark Crossmodal-3600. Les résultats montrent que le modèle SigLIP ViT-G est nettement meilleur que le modèle ViT-e plus grand.

Enfin, l’étude a également rapporté des résultats de sondage linéaire, qui ont montré que SigLIP était inférieur aux autres modèles.

Les tableaux 7 et 8 évaluent l’équité, le biais et d’autres problèmes potentiels du modèle.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)