Interprétation du modèle de graphe littéraire le plus puissant d’OpenAI – DALL· E 3

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

Midjourney et Stable Difusion ont connu un grand succès dans la monétisation commerciale et l’atterrissage basé sur des scénarios, ce qui a permis à OpenAI de voir de nouvelles opportunités commerciales et de lancer DALL· L’une des raisons importantes de E 3.

La semaine dernière, OpenAI a annoncé la pleine disponibilité du modèle de graphe Vensheng DALL· parmi les utilisateurs de ChatGPT Plus et Enterprise Edition. E3, et en même temps une rare publication d’articles de recherche.

DALL· E 3 et les deux générations précédentes de DALL· E、DALL· Par rapport à E 2, il a réalisé un saut qualitatif dans la compréhension sémantique, la qualité de l’image, la modification de l’image, l’interprétation de l’image, la saisie de texte long, etc., en particulier en combinaison avec ChatGPT, devenant une nouvelle application de carte maîtresse d’OpenAI.

Adresse papier :

La « communauté ouverte AIGC » suivante sera basée sur DALL· Le document de l’E3 explique les grands principes techniques et les fonctions de chaque module.

Les chercheurs ont constaté que les modèles d’images générées par du texte avaient souvent diverses difficultés à suivre des descriptions d’images détaillées, à ignorer les mots dans l’invite ou à confondre leurs significations, en raison de la mauvaise qualité des descriptions d’images dans l’ensemble de données d’apprentissage.

Pour tester cette hypothèse, les chercheurs ont d’abord entraîné un modèle qui génère des légendes pour les images descriptives. Le modèle est soigneusement entraîné pour générer des descriptions détaillées et précises des images.

Après avoir utilisé ce modèle pour régénérer les descriptions de l’ensemble de données d’apprentissage, les chercheurs ont comparé plusieurs modèles d’images générées par du texte entraînés sur la description d’origine et la description nouvellement générée.

Les résultats montrent que le modèle entraîné sur la nouvelle description est significativement meilleur que le modèle de description d’origine pour suivre les invites. Cette méthode a ensuite été entraînée sur des ensembles de données à grande échelle – DALL-E 3.

Du point de vue de l’architecture technique de DALL-E 3, il est principalement divisé en deux modules : la génération de description d’images et la génération d’images.

Module de génération de description d’image

Ce module utilise un encodeur d’image CLIP (Contrastive Language-Image Pretraining) et un modèle de langage GPT (GPT-4) pour générer des descriptions textuelles détaillées pour chaque image.

En construisant des ensembles de données de description de sujet à petite échelle, des ensembles de données de description détaillée à grande échelle et en définissant des règles de génération, les chercheurs augmentent considérablement la quantité d’informations de description d’images produites par le module et fournissent un support solide pour la génération d’images ultérieure. Les principales fonctions de chaque module sont les suivantes :

1) Encodeur d’image CLIP

CLIP est un modèle de correspondance de texte d’image entraîné qui encode une image dans un vecteur de longueur fixe qui contient les informations sémantiques de l’image. DALL-E 3 utilise l’encodeur d’image de CLIP pour encoder l’image d’apprentissage dans un vecteur de caractéristiques d’image dans le cadre de l’entrée de génération de texte conditionnelle.

2) Modèle de langage GPT

DALL-E 3 construit un modèle de langage basé sur l’architecture GPT et apprend à générer des descriptions textuelles cohérentes en maximisant la probabilité conjointe d’échantillonnage aléatoire de séquences textuelles.

3) Génération de texte conditionnel

En combinant les deux éléments ci-dessus, le vecteur de caractéristiques de l’image est entré dans le modèle de langage GPT avec la séquence de mots précédente, et la génération conditionnelle de texte de l’image peut être réalisée. Grâce à la formation, le module apprend à générer des descriptions Deive détaillées pour chaque image.

4) Optimiser la formation

Bien que l’infrastructure de DALL-E 3 soit achevée, les résultats de la formation directe ne sont pas assez idéaux pour générer des descriptions détaillées. Par conséquent, les chercheurs ont effectué les optimisations techniques suivantes :

* Construire des ensembles de données à petite échelle, collecter spécifiquement des descriptions détaillées des sujets, affiner les modèles de langage et tendre à décrire les sujets d’images.

  • Construire des ensembles de données de description détaillées à grande échelle, décrire divers aspects tels que le sujet, l’arrière-plan, la couleur, le texte, etc., et améliorer encore la qualité de la description grâce à un réglage fin.
  • Définissez des règles telles que la longueur et le style des descriptions générées pour empêcher les modèles de langage de s’écarter du style humain.

Module de génération d’images

Ce module utilise d’abord la VAE pour compresser des images haute résolution en vecteurs de faible dimension afin de réduire la difficulté d’apprentissage. Le texte est ensuite encodé en vecteurs à l’aide du transformateur T5 et injecté dans le modèle de diffusion à travers la couche GroupNorm pour guider la direction de génération de l’image.

Les chercheurs pensent que l’ajout du modèle de diffusion améliore considérablement l’effet de la génération de détails d’image. Le processus spécifique est le suivant :

1) Compression d’image

Les images à haute résolution sont d’abord compressées en vecteurs de faible dimension par le modèle VAE afin de réduire la difficulté de génération d’images. DALL-E 3 utilise un sous-échantillonnage 8x, et les images de 256px sont compressées dans un vecteur latent de taille 32x32.

2) Encodeur de texte

Utilisez des réseaux tels que T5 Transformer pour encoder des invites textuelles en vecteurs à injecter dans des modèles de génération d’images.

3)Diffusion latente

Il s’agit de la technique de base de la génération d’images, qui décompose le problème de génération d’images en de multiples perturbations à petite échelle du vecteur de bruit, se rapprochant progressivement de l’image cible. La clé est de concevoir les processus en amont et en aval appropriés.

  1. Injection de texte**

Le vecteur de texte codé est injecté dans le modèle de diffusion latente par le biais de la couche GroupNorm pour guider la direction de génération de l’image pour chaque cycle d’itération.

5) Optimiser la formation

Les chercheurs ont constaté que l’entraînement d’un modèle de diffusion supplémentaire sur l’espace latent de l’image comprimée pourrait encore améliorer la qualité de la génération des détails. C’est l’une des raisons pour lesquelles le DALL-E 3 produit des images de meilleure qualité que les deux générations précédentes.

Données d’évaluation CLIP

Les chercheurs ont d’abord utilisé le modèle CLIP pour calculer la similitude entre l’image générée par DALL-E 3 et le texte de description original, c’est-à-dire le score CLIP. Ils ont sélectionné au hasard 4096 descriptions d’images à partir de l’ensemble de données MSCOCO comme texte d’invite, ont demandé à DALL-E 2, DALL-E 3 et Stable Diffusion XL de générer les images correspondantes, puis ont calculé les scores CLIP moyens des trois.

Les résultats ont montré que le score CLIP de DALL-E 3 a atteint 32,0, surpassant les 31,4 de DALL-E 2 et les 30,5 de Stable Diffusion XL.

Cela montre que l’image générée par DALL-E 3 s’adapte mieux au texte de description d’origine, et que le texte guide mieux la génération de l’image.

Données d’évaluation de l’établi

Les performances des modèles ont été comparées sur le jeu de données Drawbench. Le jeu de données contient de nombreuses invites textuelles fragiles, ce qui teste la compréhension des invites par le modèle.

Les chercheurs ont utilisé GPT-V, un modèle de langage visuel, pour juger automatiquement de l’exactitude des images générées.

Dans le sous-test des invites textuelles courtes, le pourcentage d’images générées correctement par DALL-E 3 a atteint 70,4 %, dépassant significativement 49 % de DALL-E 2 et 46,9 % de Stable Diffusion XL.

Sur les longues invites de texte, le DALL-E 3 a également obtenu 81 % de corrects, continuant à surpasser les autres modèles.

Évaluation T2I-CompBench

À l’aide du sous-test de corrélation dans T2I-CompBench, la capacité du modèle à traiter les invites de classe de combinaison est étudiée. Dans les trois tests de reliure de couleur, de reliure de forme et de reliure de texture, DALL-E 3 s’est classé premier parmi les modèles dans le rapport de liaison correct, démontrant pleinement sa capacité à comprendre les indices de combinaison.

Évaluation manuelle

Les chercheurs ont également invité les humains à juger les échantillons générés en termes de suivi, de cohérence stylistique, etc. Dans une évaluation de 170 pointes, DALL-E 3 a nettement surpassé Midjourney et Stable Diffusion XL.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)