Meta redéfinit la multimodalité ! Les anciens de l'Université de Pékin travaillent ensemble, le modèle de graphe de Vincent à 7 milliards de paramètres bat Diffusion

Source : Xinzhiyuan

Les diplômés de l'Université de Pékin travaillent ensemble, Meta sort le premier modèle multimodal unique de l'histoire ! Le modèle 7B a vaincu Diffusion et le problème du dessin à la main parfait a été parfaitement résolu.

Meta est de retour !

Tout à l'heure, Meta a lancé un modèle multimodal basé sur Transformer - CM3leon, qui a fait des percées absolues dans les domaines des graphes de Vincent et de la compréhension des images, et peut être qualifié de meilleur du genre.

De plus, cette combinaison de plusieurs modalités en un seul modèle est sans précédent dans les systèmes d'IA précédemment divulgués.

De toute évidence, cette recherche de Meta définit une nouvelle norme pour l'IA multimodale, qui indique que le système d'IA peut basculer complètement librement dans des tâches telles que la compréhension, l'édition et la génération d'images, de vidéos et de textes.

Pendant ce temps, le lancement de CM3leon marque officiellement la première fois qu'un modèle autorégressif a égalé les performances des principaux modèles de diffusion générative sur des références clés.

Adresse papier :

Auparavant, les trois modèles vedettes qui recevaient le plus d'attention dans le domaine des graphes de Vincent étaient Stable Diffusion, DALL-E et Midjourney. La technique du diagramme de Vinsen repose essentiellement sur le modèle de diffusion.

Mais la signification révolutionnaire de CM3leon est qu'il utilise une technologie complètement différente - un modèle autorégressif basé sur le tokenizer.

Les résultats montrent que le modèle autorégressif basé sur le tokenizer est non seulement plus efficace que la méthode basée sur le modèle de diffusion, et réalise SOTA dans le domaine des graphes vincentiens, mais nécessite également cinq fois moins de calcul d'entraînement que la précédente méthode basée sur Transformer. !

Préparez-vous, une vague d'effets sympas arrive

Le simple fait de regarder les indicateurs de performance bruts ne peut rien expliquer.

Là où CM3leon brille vraiment, c'est dans la gestion des tâches d'invite et d'édition d'images plus complexes.

** Images rendues avec précision avec des résultats époustouflants **

Par exemple, il peut restituer avec précision des images à partir d'indices tels que "petit cactus du Sahara portant un chapeau de paille et des lunettes de soleil fluo".

Arbitraire, modifiez les images comme vous le souhaitez

CM3leon a également une capacité unique à éditer des images existantes en fonction d'instructions textuelles de forme libre, telles que la modification de la couleur du ciel ou l'ajout d'objets à des emplacements spécifiques.

Les fonctions ci-dessus dépassent de loin les effets que des modèles tels que DALL-E 2 peuvent obtenir.

Modèle unique multimodal inédit

L'architecture polyvalente de CM3leon lui permet de passer librement et en douceur entre les tâches de texte, d'image et de composition.

En plus des capacités des diagrammes Vincent, CM3leon peut générer des annotations pour les images, répondre aux questions sur le contenu de l'image et même créer des images à partir de descriptions textuelles de boîtes englobantes et de cartes de segmentation.

Cette combinaison de modalités en un seul modèle est sans précédent dans les systèmes d'IA précédemment divulgués.

: Que tient le chien ? Le modèle a répondu: bâton.

: Décrit l'image donnée en détail. Le modèle répond : Sur cette image, un chien tient un bâton dans sa gueule. Il y a de l'herbe au sol. L'image a des arbres en arrière-plan.

Compte tenu de la description textuelle de la segmentation de la boîte englobante de l'image, indiquant où un pool et un miroir sont nécessaires dans l'image, CM3leon peut générer l'image correspondante exactement.

Super haute résolution

Une plate-forme de super-résolution distincte peut être intégrée à la sortie CM3leon, ce qui entraîne une augmentation spectaculaire de la résolution et des détails.

Entrez "une petite île circulaire au milieu du lac, avec des forêts autour du lac, un contraste élevé"——

** Résoudre le problème du peintre AI **

Même le problème de longue date de l'incapacité de l'IA à dessiner des mains a été facilement résolu par CM3leon.

Le modèle autorégressif bat Diffusion pour la première fois ?

Dans le domaine des diagrammes de Vincent devenu populaire ces dernières années, Midjourney, DALL-E 2 et Stable Diffusion utilisent tous la technologie de diffusion. Bien que la technique de diffusion produise des résultats époustouflants, elle est gourmande en calculs, ce qui la rend intensive en calculs, coûteuse à exécuter et manque souvent de la vitesse requise pour les applications en temps réel.

Fait intéressant, OpenAI a voulu explorer la possibilité de Transformer en tant que génération d'images via un modèle appelé Image GPT il y a quelques années. Mais il a finalement abandonné l'idée au profit de Diffusion.

Le CM3leon adopte une approche complètement différente. En tant que modèle basé sur Transformer, il exploite un mécanisme d'attention pour peser la pertinence des données d'entrée (qu'il s'agisse de texte ou d'images).

Cette différence architecturale permet à CM3leon d'atteindre une vitesse d'apprentissage plus rapide et une meilleure parallélisation, étant ainsi plus efficace que les méthodes traditionnelles basées sur la diffusion.

Avec un seul TPU, CM3leon est efficacement formé sur l'ensemble de données d'image et obtient un score FID de 4,88 sur l'ensemble de données MS-COCO, surpassant le modèle texte-image de Google Parti.

Dans le même temps, l'efficacité de CM3leon est plus de 5 fois supérieure à celle de l'architecture Transformer similaire.

La raison du succès de CM3leon peut être attribuée à son architecture unique et à sa méthode de formation.

La clé de ses performances puissantes est la technique de réglage fin supervisé (SFT).

SFT a déjà été utilisé pour former des modèles de génération de texte comme ChatGPT à bon escient, mais Meta affirme qu'il peut également être utile lorsqu'il est appliqué aux images.

En fait, le réglage fin des instructions a amélioré les performances de CM3Leon non seulement dans la génération d'images, mais également dans l'écriture d'annotations d'images, lui permettant de répondre aux questions sur les images et d'améliorer les performances des images en suivant des instructions textuelles telles que "Changer la couleur du ciel en bleu vif." ") pour modifier l'image.

CM3leon utilise uniquement une architecture décodeur-transformateur, similaire aux modèles textuels établis, mais ajoute la possibilité de traiter du texte et des images.

Le processus de formation implique une augmentation de la récupération, ainsi qu'un ajustement des instructions dans diverses tâches de génération d'images et de texte.

En appliquant des techniques de réglage fin supervisées intermodales, Meta améliore considérablement les performances de CM3leon en matière d'annotation d'images, d'assurance qualité visuelle et d'édition de texte.

Bien que CM3leon ne soit formé que sur 3 milliards de jetons de texte, il correspond ou même dépasse les résultats d'autres modèles formés sur jusqu'à 100 milliards de jetons.

En tant que premier modèle multimodal réglé de la même manière que les modèles de langage textuel, Meta intègre une étape de pré-formation augmentée par récupération à grande échelle et une deuxième étape de réglage fin supervisé (SFT) multi-tâches dans CM3leon.

Comment se comporte CM3leon

Grâce aux capacités de CM3leon, les outils de génération d'images peuvent produire des images plus cohérentes qui suivent mieux les signaux d'entrée.

Ce qui suit est une démonstration des capacités de CM3leon dans diverses tâches, toutes complétées par un seul modèle :

** génération de texte en image **

L'édition d'images textuelles (par exemple, "changer la couleur du ciel en bleu vif") est difficile car elle nécessite que le modèle comprenne à la fois les instructions textuelles et le contenu visuel.

Surtout lorsque des objets complexes sont impliqués ou lorsque l'indice contient plusieurs contraintes qui doivent être présentes dans la sortie.

À partir d'un texte rapide avec une structure hautement compositionnelle, CM3leon peut générer une image à suivre.

(1) Petit cactus portant un chapeau de paille et des lunettes de soleil fluo dans le désert du Sahara (2) Gros plan d'une main humaine (3) Personnage principal du raton laveur dans l'anime se préparant à une bataille épique avec une épée katana (4) Rendu dans un style fantastique Panneau d'arrêt avec "1991" écrit dessus

Édition d'images basée sur du texte

Étant donné une image et une invite de texte, CM3leon peut éditer l'image selon les instructions du texte.

En raison de la généralité du modèle CM3leon, ceci est réalisé avec le même modèle que les autres tâches, contrairement aux modèles précédents (tels que InstructPix2Pix) qui n'étaient affinés que pour l'édition d'images basée sur du texte.

Dans le même temps, le modèle CM3leon peut également générer des descriptions courtes ou longues et répondre aux questions sur les images en fonction d'une série d'invites différentes.

Prenez une châtaigne.

  • indice:

Question : Qu'est-ce que ces deux objets ont en commun ?

Contexte : Choisissez la meilleure réponse.

Options : (A) Brillant (B) Salé

Réponse : Réfléchissons étape par étape :

  • Sortie CM3Leon :

Pensez à chaque objet. Les frites sont salées. Les bretzels sont salés. La réponse est donc (B).

- indice:

Décrire en détail tous les objets d'une image donnée.

  • Sortie CM3Leon :

Un panneau de signalisation est posé sur un poteau métallique. Le logo est bleu avec du texte blanc dessus. Il y a une lumière rouge sur le poteau. Le ciel est bleu vif. Il y a des voitures garées dans la rue. Il y a des arbres des deux côtés de la rue. Il y a des bâtiments des deux côtés de la rue.

De même, CM3leon peut facilement gérer les "questions et réponses en images" suivantes.

Pour en savoir plus sur CM3leon, Meta évalue de manière empirique des modèles d'instructions affinés sur la génération de légendes d'image et les tâches de réponse aux questions visuelles, et les compare aux précédents benchmarks SOTA.

Par rapport à Flamingo (100B) et OpenFlamingo (40B), les données textuelles du modèle CM3leon sont nettement inférieures (environ 3B jetons).

Mais en termes de description d'image MS-COCO et de réponse aux questions VQA2, CM3leon a atteint les mêmes performances qu'OpenFlamingo à échantillon zéro, et a même battu Flamingo de près de 10 points de pourcentage sur la tâche VizWiz.

Édition d'image guidée par la structure

L'édition d'images guidée par la structure vise à comprendre et à interpréter les instructions textuelles fournies ainsi que les informations structurelles ou de mise en page.

Cela permet aux modèles CM3leon de créer des compilations d'images visuellement cohérentes et adaptées au contexte tout en respectant les instructions structurelles ou de mise en page données.

Dans une image contenant uniquement des segmentations (pas de catégories de texte), générez une image. L'entrée ici représente l'image à partir de laquelle la segmentation est extraite.

Super Résolution

En plus de cela, il existe une astuce courante dans le domaine de la génération d'images - l'utilisation d'un étage de super-résolution formé séparément pour générer des images à plus haute résolution à partir de la sortie du modèle d'origine.

Pour ce type de tâche de génération de texte en image, CM3leon fonctionne également très bien.

(1) Une tasse de café fumant avec des montagnes en arrière-plan, reposant sur la route

(2) Au coucher du soleil, la belle et majestueuse autoroute

(3) Une île circulaire au centre du lac entourée de forêts

Et une génération de style "fantasy".

(1) Tortue nageant sous l'eau (2) Éléphant nageant sous l'eau (2) Un troupeau de moutons

Comment construire CM3Leon

Structure

En termes d'architecture, CM3Leon utilise un transformateur de décodeur uniquement similaire à un modèle de texte mature.

Mais la différence est que CM3Leon est capable de saisir et de générer du texte et des images.

former

En adoptant la technologie d'amélioration de la récupération d'entraînement proposée dans l'article "Retri-Augmented Multimodal Language Modeling", Meta améliore considérablement l'efficacité et la contrôlabilité du modèle CM3Leon.

Dans le même temps, Meta a également affiné le modèle CM3Leon sur diverses tâches de génération d'images et de texte.

À gauche : entrées communes pour diverses tâches ; à droite : sorties de modèle correspondantes. Pendant la formation, Meta concatène les entrées et les sorties du modèle et s'entraîne avec le même objectif que lors de la phase de pré-formation.

Alors que l'industrie de l'IA continue de croître, les modèles génératifs comme CM3Leon deviennent de plus en plus complexes.

Ces modèles apprennent la relation entre la vision et le texte en s'entraînant sur des millions d'exemples d'images, mais ils peuvent également refléter les biais présents dans les données d'entraînement.

Par conséquent, Meta adopte l'ensemble de données sous licence pour former CM3Leon.

Les résultats démontrent également que CM3Leon atteint toujours de bonnes performances bien que la distribution des données soit assez différente des modèles précédents.

À cet égard, Meta espère que grâce aux efforts conjoints de chacun, un modèle plus précis, juste et équitable pourra être créé.

Ouvrir la voie aux modèles de langage multimodaux

Dans l'ensemble, Meta estime que l'excellente performance de CM3Leon sur diverses tâches est une étape importante vers une génération et une compréhension d'images plus réalistes.

Et un tel modèle peut finalement aider à améliorer la créativité et à obtenir de meilleures applications dans le métaverse.

A propos de l'auteur

Lili Yu, Bowen Shi et Ramakanth Pasunuru sont co-auteurs de l'article.

Parmi eux, Lili Yu a obtenu un baccalauréat du Département de physique de l'Université de Pékin et un doctorat en génie électrique et informatique du MIT.

Les références:

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)