MiniGPT-5, qui unifie la génération d'images et de texte, est là : Token devient Voken, et le modèle peut non seulement continuer à écrire, mais aussi ajouter automatiquement des images.

2023-10-09 05:44:09

Le grand modèle GPT-5 d'OpenAI semble être loin, mais certains chercheurs ont pris les devants en lançant le modèle innovant multi-génération visuelle et linguistique MiniGPT-5. Cela a des implications importantes pour générer des images avec des descriptions textuelles cohérentes.

Source de l'image : générée par Unbounded AI

Les grands modèles font le saut entre le langage et la vision, promettant de comprendre et de générer de manière transparente du contenu texte et image. Dans une série d'études récentes, l'intégration de fonctionnalités multimodales est non seulement une tendance croissante, mais a déjà conduit à des avancées clés allant des conversations multimodales aux outils de création de contenu. Les grands modèles de langage ont démontré des capacités inégalées en matière de compréhension et de génération de textes. Cependant, générer simultanément des images avec des récits textuels cohérents reste un domaine à développer.

Récemment, une équipe de recherche de l'Université de Californie à Santa Cruz a proposé MiniGPT-5, une technologie innovante de génération de langage visuel entrelacé basée sur le concept de « vote génératif ».

* Adresse papier : *adresse du projet :

En combinant le mécanisme de diffusion stable avec LLM via un jeton visuel spécial « vote génératif », MiniGPT-5 annonce un nouveau modèle de génération multimodale qualifiée. Dans le même temps, la méthode de formation en deux étapes proposée dans cet article souligne l'importance de l'étape de base sans description, permettant au modèle de « prospérer » même lorsque les données sont rares. La phase générale de la méthode ne nécessite pas d'annotations spécifiques au domaine, ce qui distingue notre solution des méthodes existantes. Afin de garantir l'harmonie du texte et des images générés, la stratégie de double perte de cet article entre en jeu, et la méthode de vote générative et la méthode de classification renforcent encore cet effet.

S’appuyant sur ces techniques, ce travail marque une approche transformatrice. En utilisant ViT (Vision Transformer) et Qformer ainsi que de grands modèles de langage, l'équipe de recherche convertit les entrées multimodales en votes génératifs et les associe de manière transparente à Stable Diffusion2.1 haute résolution pour obtenir une génération d'images contextuelles. Cet article combine des images comme entrée auxiliaire avec des méthodes d'ajustement des instructions et est pionnier dans l'utilisation des pertes de génération de texte et d'images, élargissant ainsi la synergie entre le texte et la vision.

MiniGPT-5 correspond à des modèles tels que les contraintes CLIP et intègre intelligemment le modèle de diffusion avec MiniGPT-4 pour obtenir de meilleurs résultats multimodaux sans s'appuyer sur des annotations spécifiques au domaine. Plus important encore, notre stratégie peut tirer parti des avancées des modèles de base du langage visuel multimodal et fournir un nouveau modèle pour améliorer les capacités génératives multimodales.

Comme le montre la figure ci-dessous, en plus de ses capacités originales de compréhension multimodale et de génération de texte, MiniGPT5 peut également fournir une sortie multimodale raisonnable et cohérente :

L’apport de cet article se reflète sous trois aspects :

Il est recommandé d'utiliser un encodeur multimodal, qui représente une nouvelle technique à usage général et qui s'est avéré plus efficace que le LLM et les Vokens génératifs inversés, et de le combiner avec la diffusion stable pour générer des sorties visuelles et linguistiques entrelacées (Multimodal modèle de langage capable de génération multimodale).
Met en évidence une nouvelle stratégie de formation en deux étapes pour la génération multimodale sans description. L'étape d'alignement monomodal obtient des caractéristiques visuelles alignées sur le texte de haute qualité à partir d'un grand nombre de paires texte-image. La phase d'apprentissage multimodale comprend une nouvelle tâche de formation, la génération de contexte, garantissant que la vision et le texte peuvent être bien coordonnés et générés. L'ajout d'un guidage sans classificateur pendant la phase de formation améliore encore la qualité de la génération.
Comparé à d'autres modèles génératifs multimodaux, MiniGPT-5 atteint des performances de pointe sur l'ensemble de données CC3M. MiniGPT-5 a également établi de nouvelles références sur des ensembles de données célèbres tels que VIST et MMDialog.

Examinons ensuite les détails de l’étude.

Présentation de la méthode

Afin de permettre aux modèles de langage à grande échelle de disposer de capacités de génération multimodale, les chercheurs ont introduit un cadre structuré qui intègre des modèles de langage multimodaux pré-entraînés à grande échelle et des modèles de génération de texte en image. Afin de résoudre les différences entre les différents domaines de modèles, ils ont introduit des symboles visuels spéciaux « votes génératifs » (votes génératifs), qui peuvent être entraînés directement sur les images originales. De plus, une méthode de formation en deux étapes est avancée, combinée à une stratégie d'amorçage sans classificateur, pour améliorer encore la qualité de la génération.

Étage d'entrée multimodal

Les progrès récents dans les grands modèles multimodaux (tels que MiniGPT-4) se concentrent principalement sur la compréhension multimodale, capable de traiter les images en entrée continue. Afin d'étendre ses fonctionnalités à la génération multimodale, les chercheurs ont introduit des Vokens génératifs spécialement conçus pour produire des fonctionnalités visuelles. En outre, ils ont également adopté des techniques de réglage fin efficaces en termes de paramètres dans un cadre de modèle de langage étendu (LLM) pour l'apprentissage multimodal.

Génération de sortie multimodale

Pour aligner avec précision les jetons génératifs avec les modèles génératifs, nous formulons un module de cartographie compact pour la correspondance de dimensionnalité et incorporons plusieurs pertes supervisées, notamment la perte d'espace de texte et la perte de modèle de diffusion latente. La perte d'espace de texte aide le modèle à apprendre la localisation correcte des jetons, tandis que la perte de diffusion latente aligne directement les jetons avec les caractéristiques visuelles appropriées. Étant donné que les caractéristiques des symboles génératifs sont directement guidées par les images, cette méthode ne nécessite pas de descriptions complètes des images, ce qui permet un apprentissage sans description.

Stratégie de formation

Étant donné qu'il existe un changement de domaine non négligeable entre le domaine du texte et le domaine de l'image, les chercheurs ont découvert que l'entraînement directement sur un ensemble limité de données de texte et d'image entrelacées peut entraîner un désalignement et une dégradation de la qualité de l'image.

Par conséquent, ils ont utilisé deux stratégies de formation différentes pour atténuer ce problème. La première stratégie consiste à utiliser des techniques d'amorçage sans classificateur pour améliorer l'efficacité des jetons générés tout au long du processus de diffusion ; la deuxième stratégie se déroule en deux phases : une phase initiale de pré-formation axée sur l'alignement approximatif des caractéristiques, suivie d'une phase de réglage fin. sur l'apprentissage de fonctionnalités complexes.

Expérience et résultats

Pour évaluer l'efficacité du modèle, les chercheurs ont mené une série d'évaluations sur plusieurs critères. L’expérimentation vise à répondre à plusieurs questions clés :

MiniGPT-5 peut-il générer des images crédibles et du texte sensé ?
Comment le MiniGPT-5 se comporte-t-il par rapport aux autres modèles SOTA dans les tâches de génération de langage visuel entrelacé à un ou plusieurs tours ?
Quel impact la conception de chaque module a-t-elle sur les performances globales ?

Afin d'évaluer les performances du modèle sur différents benchmarks à différentes étapes de formation, les échantillons d'analyse quantitative de MiniGPT-5 sont présentés dans la figure 3 ci-dessous :

L'évaluation ici couvre à la fois les domaines visuels (métriques liées à l'image) et linguistiques (métriques textuelles) pour démontrer la généralité et la robustesse du modèle proposé.

Évaluation de la dernière étape du VIST

La première série d'expériences implique une évaluation en une seule étape, c'est-à-dire la génération d'images correspondantes basées sur le modèle de la dernière étape, et les résultats sont présentés dans le tableau 1.

Le MiniGPT-5 surpasse le SD 2 affiné dans les trois paramètres. Notamment, le score CLIP du modèle MiniGPT-5 (LoRA) surpasse systématiquement les autres variantes sur plusieurs types, en particulier lors de la combinaison d'images et de texte. D'autre part, le score FID met en évidence la compétitivité du modèle MiniGPT-5 (Prefix), indiquant qu'il peut y avoir un compromis entre la qualité d'intégration de l'image (reflétée par le score CLIP) et la diversité et l'authenticité de l'image (reflétée par le score CLIP). score FID). Par rapport à un modèle formé directement sur VIST sans inclure d'étape d'enregistrement à modalité unique (MiniGPT-5 sans UAS), bien que le modèle conserve la capacité de générer des images significatives, la qualité et la cohérence des images sont considérablement réduites. Ce constat souligne l’importance d’une stratégie de formation en deux étapes.

Évaluation VIST en plusieurs étapes

Dans une évaluation plus détaillée et plus complète, les chercheurs ont systématiquement fourni au modèle un contexte historique préalable et ont ensuite évalué les images et les récits résultants à chaque étape.

Les tableaux 2 et 3 résument les résultats de ces expériences, résumant respectivement les performances des métriques d'image et de langage. Les résultats expérimentaux montrent que MiniGPT-5 est capable de générer des images cohérentes et de haute qualité en utilisant des entrées multimodales horizontales longues dans toutes les données sans affecter les capacités de compréhension multimodale du modèle original. Cela met en évidence l’efficacité du MiniGPT-5 dans différents environnements.

Évaluation humaine VIST

Comme le montre le tableau 4, MiniGPT-5 a généré des récits textuels plus appropriés dans 57,18 % des cas, a fourni une meilleure qualité d'image dans 52,06 % des cas et a généré un multimode plus cohérent dans 57,62 % des scènes de sortie d'état. Par rapport à la base de référence en deux étapes qui adopte la narration texte-image sans mode subjonctif, ces données démontrent clairement ses plus fortes capacités de génération multimodale.

MMDialog plusieurs cycles d'évaluation

Les résultats sont présentés dans le tableau 5. MiniGPT-5 surpasse le modèle de base Divter en générant des réponses textuelles plus précises. Bien que les images générées soient de qualité similaire, MiniGPT-5 surpasse le modèle de base en termes de corrélation MM, ce qui indique qu'il peut mieux apprendre à positionner la génération d'images de manière appropriée et à générer des réponses multimodales hautement cohérentes.

Quel est l'effet ? Jetons un coup d'œil à la sortie de MiniGPT-5. La figure 7 ci-dessous montre la comparaison des modèles de base sur les ensembles de validation MiniGPT-5 et CC3M.

La figure 8 ci-dessous montre la comparaison entre MiniGPT-5 et le modèle de base sur l'ensemble de validation VIST.

La figure 9 ci-dessous montre la comparaison entre MiniGPT-5 et le modèle de base sur l'ensemble de test MMDialog.

Pour plus de détails sur la recherche, veuillez vous référer à l’article original.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1ate ETH 10th Anniversary Investment Zone
10k Popularité
2Simple Earn Annual Rate 24.4%
60k Popularité
3Major Power Trade Talks
13k Popularité
4Fed Rate Decision
20k Popularité
5Public Company Crypto Reserves
2k Popularité

Épingler