Une technologie de rupture ! Modèle multimodal open source : MiniGPT-5

2023-11-03 01:47:03

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

La génération multimodale a toujours été un domaine de recherche important pour les géants de la technologie tels qu’OpenAI, Microsoft et Baidu, mais la façon d’obtenir un texte cohérent et des images connexes est un problème délicat.

Afin de surmonter le goulot d’étranglement technique, l’Université de Californie à Santa Cruz a développé le modèle MiniGPT-5** et a proposé un nouveau concept technique « Generative Vokens », qui devient un « pont » entre l’espace des caractéristiques du texte et l’espace des caractéristiques de l’image**, réalisant l’alignement efficace des données d’entraînement ordinaires et générant en même temps du texte et des images de haute qualité.

Pour évaluer les effets de MiniGPT-5, les chercheurs l’ont testé sur plusieurs ensembles de données, notamment CC3M, VIST et MMDialog. Les résultats montrent que MiniGPT-5 surpasse plusieurs bases de comparaison sur plusieurs indicateurs, et est capable de générer du texte et des images cohérents et de haute qualité.

Par exemple, sur le jeu de données VIST, le score CLIP de l’image générée par MiniGPT-5 est supérieur à celui de fine-tunedStable Diffusion 2 ; Dans l’évaluation humaine, MiniGPT-5 a généré une meilleure cohérence du langage (57,18 %), une meilleure qualité d’image (52,06 %) et une plus grande cohérence multimodale (57,62 %).

Sur l’ensemble de données MMDialog, l’indice de corrélation MM de MiniGPT-5 a atteint 0,67, dépassant les 0,62 du modèle de référence Divter. Cela prouve pleinement la forte adaptabilité de MiniGPT-5 dans différents modes de données.

Adresse Open Source :

Adresse:

Le modèle MiniGPT-5 présente trois innovations majeures : 1) Il utilise un encodeur multimodal pour extraire les caractéristiques du texte et de l’image, ce qui représente une nouvelle technologie d’alignement texte-image, ce qui est meilleur que la méthode consistant à utiliser directement de grands modèles de langage pour générer des jetons visuels.

Une stratégie de formation en deux étapes sans description complète de l’image a été proposée : la première étape s’est concentrée sur l’alignement simple du texte et de l’image ; Dans un deuxième temps, l’apprentissage multimodal des caractéristiques fines est effectué.
La technologie « sans guidage par classificateur » est introduite dans la formation, ce qui peut améliorer efficacement la qualité du contenu de la génération multimodale. L’architecture principale du module est la suivante.

Vokens génératifs

L’innovation principale de MiniGPT-5 est de mettre en avant le concept technique de « Vokens génératifs », qui réalise la connexion transparente entre les grands modèles de langage et les modèles de génération d’images.

Plus précisément, les chercheurs ont ajouté huit jetons Voken spéciaux au lexique du modèle[IMG1] [IMG8]- 。 Ces Vokens sont utilisés comme espaces réservés pour les images lors de l’entraînement du modèle.

Du côté de l’entrée, les caractéristiques de l’image sont épissées avec les vecteurs de mots de Voken pour former une entrée de séquence. À la sortie, le modèle prédit la position de ces Vokens, et l’état caché correspondant h_voken est utilisé pour représenter le contenu de l’image.

Ensuite, le h_voken est converti en entités conditionnelles d’image ˆh_voken alignées avec la sortie de l’encodeur de texte Diffusion stable via un module de mappage de caractéristiques.

Dans la diffusion stable, ˆh_voken est utilisé comme entrée conditionnelle pour guider la génération d’images. L’ensemble du pipeline réalise l’ancrage, des images aux modèles de langage en passant par la génération d’images.

Cette méthode d’alignement via Voken est plus simple que le calcul inverse et plus polyvalente que l’utilisation de descriptions d’images. Pour faire simple, Generative Vokens agit comme un « pont » qui rend le transfert d’informations entre les différents domaines du modèle plus fluide.

Stratégie de formation en deux phases

Étant donné qu’il existe certaines différences de domaine dans l’espace de fonctionnalités du texte et des images, MiniGPT-5 adopte une stratégie d’entraînement en deux étapes.

La première étape est la phase d’alignement unimodal : seules les données d’une seule paire image-texte, telle que CC3M, sont utilisées. Le modèle apprend à générer le Voken correspondant à partir de la légende de l’image. Dans le même temps, une perte de titre d’image secondaire a été ajoutée pour aider Voken à s’aligner sur le contenu de l’image.

La deuxième étape est la phase d’apprentissage multimodal : la mise au point à l’aide de données contenant des échantillons multimodaux contigus, tels que VIST. Configurez différentes tâches d’entraînement, notamment la génération de texte, la génération d’images, etc. La capacité du modèle à traiter des informations multimodales a été améliorée.

Cette stratégie progressive peut atténuer le problème de l’entraînement direct sur des données limitées. Un alignement grossier a d’abord été effectué, puis des caractéristiques à grain fin ont été affinées, ce qui a amélioré l’expressivité et la robustesse du modèle.

Pas de guide de classificateur

Afin d’améliorer encore la cohérence du texte et des images générés, MiniGPT-5 adopte également la technologie du « guidage sans classificateur ».

L’idée de base est que dans le processus de diffusion de l’image, le Voken conditionnel est remplacé par des caractéristiques nulles avec une certaine probabilité d’atteindre une génération inconditionnelle.

Lors de l’inférence, les résultats conditionnels et inconditionnels sont utilisés comme échantillons positifs et négatifs, et le modèle peut mieux utiliser le contraste entre les deux pour produire une sortie multimodale cohérente. Cette méthode est simple et efficace, n’a pas besoin d’introduire de classificateurs supplémentaires et guide l’apprentissage du modèle grâce à la nature de la comparaison des données.

Modèle de génération de texte en image

MiniGPT-5 utilise Stable Diffusion 2.1 et le modèle multimodal MiniGPT-4 comme modèle de génération de texte en image. Des images de haute qualité et haute résolution peuvent être générées à partir de descriptions textuelles.

Stable Diffusion utilise le modèle Diffusion et U-Net comme composants principaux. Le modèle de diffusion peut représenter l’image sous forme de données de bruit, qui peuvent ensuite être débruitées et reconstruites étape par étape.

U-Net utilise des caractéristiques textuelles comme conditions pour guider le processus de débruitage afin de générer les images correspondantes. Par rapport au GAN, le modèle de diffusion est plus stable et l’effet de génération est plus clair et plus réaliste.

Pour aligner avec précision les marqueurs génératifs avec le modèle génératif, les chercheurs ont développé un module de cartographie compact pour l’appariement dimensionnel et ont incorporé certaines pertes supervisées, notamment la perte d’espace textuel et la perte de modèle de diffusion latente.

La perte spatiale textuelle aide le modèle à apprendre la position correcte du marqueur, tandis que la perte de diffusion potentielle aligne directement le marqueur avec la caractéristique visuelle appropriée. Étant donné que les caractéristiques qui génèrent Vokens sont directement guidées par l’image, l’apprentissage descriptif peut être réalisé sans avoir besoin d’une description complète de l’image.

Selon les chercheurs, la plus grande contribution de MiniGPT-5 réside dans l’intégration efficace de la génération de texte et de la génération d’images. Seuls du texte et des images ordinaires sont nécessaires pour le pré-apprentissage, et la génération multimodale cohérente peut être effectuée sans description complexe de l’image. Il s’agit d’une solution uniforme et efficace pour les tâches multimodales.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Gate & WLFI USD1 Points Program
9k Popularité
#Show My Alpha Points
69k Popularité
#ETH Whales Accumulate
16k Popularité
#SOL Futures Reach New High
23k Popularité
#ETH ETF Sees 12 Weeks of Inflows
7k Popularité

Épingler