Dans la génération d’images et de vidéos, le modèle de langage a vaincu le modèle de diffusion pour la première fois, et le tokenizer est la clé

Pourquoi les modèles de langage sont-ils à la traîne par rapport aux modèles de diffusion en termes de génération visuelle ? Les recherches de Google, CMU montrent que le tokenizer est la clé.

Source de l’image : Généré par Unbounded AI

Les grands modèles de langage (LLM ou LM) ont commencé à générer des langages, mais au fil du temps, ils sont devenus capables de générer du contenu selon de multiples modalités et sont devenus dominants dans l’audio, la parole, la génération de code, les applications médicales, la robotique, etc.

Bien sûr, LM peut également générer des images et des vidéos. Au cours de ce processus, les pixels d’image sont mappés par des tokenizers visuels dans une série de jetons discrets. Ces jetons sont ensuite introduits dans le transformateur LM et sont utilisés pour la modélisation générative tout comme un vocabulaire. Bien que LM ait fait des progrès significatifs dans la génération visuelle, LM fonctionne toujours moins bien que les modèles de diffusion. Par exemple, lorsqu’il est évalué sur l’ensemble de données ImageNet, la référence en or pour la génération d’images, le meilleur modèle de langage a donné des résultats jusqu’à 48% inférieurs à ceux du modèle de diffusion (FID 3,41 contre 1,79 lors de la génération d’images à une résolution de 256ˆ256).

Pourquoi les modèles de langage sont-ils à la traîne par rapport aux modèles de diffusion en termes de génération visuelle ? Les chercheurs de Google, CMU, estiment que la raison principale est l’absence d’une bonne représentation visuelle, similaire à notre système de langage naturel, pour modéliser efficacement le monde visuel. Pour confirmer cette hypothèse, ils ont mené une étude.

Lien papier :

Cette étude montre qu’avec un bon tokenizer visuel, les modèles de langage de masquage surpassent les modèles de diffusion SOTA en termes de fidélité générative et d’efficacité des benchmarks d’images et de vidéos pour les mêmes données d’entraînement, des tailles de modèles comparables et un budget de formation. C’est la première preuve qu’un modèle de langage bat un modèle de diffusion sur le benchmark emblématique d’ImageNet.

Il convient de souligner que le but des chercheurs n’est pas d’affirmer si le modèle de langage est supérieur aux autres modèles, mais de promouvoir l’exploration des méthodes de tokenisation visuelle LLM. La différence fondamentale entre LLM et d’autres modèles, tels que les modèles de diffusion, est que LLM utilise un format latent discret, c’est-à-dire des jetons obtenus à partir de la visualisation de tokenizers. Cette étude montre que la valeur de ces jetons visuels discrets ne doit pas être négligée en raison de leurs avantages suivants:

  1. Compatibilité avec LLM. Le principal avantage de la représentation par jeton est qu’elle partage la même forme que le jeton de langage, ce qui lui permet de tirer directement parti des optimisations que la communauté a apportées au fil des ans pour développer LLM, notamment une formation et une inférence plus rapides, des progrès dans l’infrastructure de modèles, des moyens de mettre à l’échelle des modèles et des innovations telles que l’optimisation GPU / TPU. Unifier la vision et le langage à travers le même espace symbolique peut jeter les bases d’un LLM véritablement multimodal qui peut être compris, généré et raisonné dans notre environnement visuel.

  2. Représentation de compression. Les jetons discrets peuvent fournir une nouvelle perspective sur la compression vidéo. Les jetons visuels peuvent être utilisés comme nouveau format de compression vidéo pour réduire le stockage sur disque et la bande passante occupée par les données lors de la transmission sur Internet. Contrairement aux pixels RVB compressés, ces jetons peuvent être introduits directement dans le modèle génératif, en contournant les étapes de décompression traditionnelles et d’encodage potentielles. Cela peut accélérer le traitement de la création d’applications vidéo, ce qui est particulièrement bénéfique dans les scénarios d’informatique de pointe.

  3. Avantages de la compréhension visuelle. Des études antérieures ont montré que les jetons discrets sont précieux en tant que cibles de pré-formation dans l’apprentissage de représentation auto-supervisé, comme discuté dans BEiT et BEVT. En outre, l’étude a révélé que l’utilisation de jetons comme intrants de modèle améliorait la robustesse et la généralisation.

Dans cet article, les chercheurs proposent un tokenizer vidéo appelé MAGVIT-v2, qui vise à mapper des vidéos (et des images) en jetons discrets compacts.

Le modèle est basé sur le tokenizer vidéo SOTA – MAGVIT dans le cadre VQ-VAE. Sur cette base, les chercheurs proposent deux nouvelles technologies: 1) une nouvelle méthode de quantification sans recherche qui permet d’apprendre un grand nombre de mots pour améliorer la qualité de la génération de modèles linguistiques; 2) Grâce à une analyse empirique approfondie, ils ont identifié des modifications à MAGVIT qui non seulement améliorent la qualité de construction, mais permettent également de tokeniser les images et les vidéos en utilisant un vocabulaire partagé.

Les résultats expérimentaux montrent que le nouveau modèle surpasse le précédent tokenizer vidéo le plus performant, MAGVIT, dans trois domaines clés. Tout d’abord, le nouveau modèle améliore considérablement la qualité de construction de MAGVIT, rafraîchissant SOTA sur les benchmarks d’image et de vidéo courants. Deuxièmement, des études d’utilisateurs ont montré que sa qualité de compression dépasse celle de MAGVIT et de la norme de compression vidéo actuelle HEVC. De plus, il est comparable au codec vidéo de nouvelle génération VVC. Enfin, les chercheurs ont montré que leur nouveau jeton était plus performant sur la tâche de compréhension vidéo avec deux paramètres et trois ensembles de données par rapport à MAGVIT.

Introduction à la méthode

Cet article présente un nouveau tokenizer vidéo qui vise à mapper dynamiquement l’espace-temps dans les scènes visuelles en jetons discrets compacts adaptés aux modèles de langage. De plus, la méthode s’appuie sur MAGVIT.

L’étude a ensuite mis en évidence deux nouvelles conceptions: la quantification sans recherche (LFQ) et les améliorations apportées au modèle de tokenizer.

Aucune quantification de recherche

Récemment, le modèle VQ-VAE a fait de grands progrès, mais l’un des inconvénients de cette méthode est que la relation entre l’amélioration de la qualité de la reconstruction et la qualité de la génération ultérieure n’est pas claire. Beaucoup de gens pensent à tort que l’amélioration de la reconstruction équivaut à l’amélioration de la génération de modèles linguistiques, par exemple, l’élargissement du vocabulaire peut améliorer la qualité de la reconstruction. Cependant, cette amélioration ne s’applique qu’à la génération de petit vocabulaire, ce qui peut nuire aux performances du modèle linguistique lorsque le vocabulaire est très grand.

Cet article réduit la dimension d’incorporation du livre de codes VQ-VAE à 0, qui est le livre de codes

est remplacé par un ensemble d’entiers

à cet égard

Contrairement au modèle VQ-VAE, ce nouveau design élimine complètement le besoin de recherches intégrées, d’où le nom LFQ. Cet article révèle que le LFQ peut améliorer la qualité de la génération de modèles linguistiques en augmentant le vocabulaire. Comme le montre la courbe bleue de la figure 1, la reconstruction et la génération s’améliorent à mesure que le vocabulaire augmente, une caractéristique qui n’est pas observée dans les approches VQ-VAE actuelles.

Jusqu’à présent, il existe de nombreuses méthodes LFQ disponibles, mais cet article traite d’une variante simple. Plus précisément, l’espace latent de LFQ est décomposé en produits cartésiens de variables unidimensionnelles, c’est-à-dire

。 Supposons qu’un vecteur d’entités soit donné

, représentant quantitativement chaque dimension de q (z) obtenue à partir des éléments suivants:

Pour LFQ, l’index de jeton pour q (z) est :

En outre, cet article ajoute également la pénalité d’entropie pendant l’entraînement:

Améliorations du modèle Visual Tokenizer

Images fédérées - tokenisation vidéo. Afin de construire un tokenizer image-vidéo fédéré, un nouveau design est nécessaire. Cet article constate que les CNN 3D fonctionnent mieux que les transformateurs spatiaux.

Cet article explore deux options de conception possibles, telles que la figure 2b combinant C-ViViT et MAGVIT; La figure 2c utilise la convolution 3D causale temporelle au lieu d’une CNN 3D régulière.

Le tableau 5a compare empiriquement la conception de la figure 2 et constate que les CNN 3D causales fonctionnent mieux.

En plus de l’utilisation de la couche CNN 3D causale, d’autres modifications architecturales ont été apportées pour améliorer les performances de MAGVIT, telles que le changement du sous-échantillonneur d’encodeur de la mise en commun moyenne à la convolution par étapes; Un autre exemple est l’ajout d’une couche de normalisation de groupe adaptatif avant le bloc résiduel de chaque résolution dans le décodeur.

Résultats expérimentaux

Les expériences vérifient les performances du tokenizer proposé dans cet article à partir de trois parties: la génération de vidéos et d’images, la compression vidéo et la reconnaissance de mouvement. La figure 3 compare visuellement les résultats de Tokenizer avec les études précédentes.

Génération vidéo. Le tableau 1 montre que ce modèle surpasse tous les états de la technique dans les deux benchmarks, démontrant qu’un bon tokenizer visuel joue un rôle important pour permettre aux LM de produire des vidéos de haute qualité.

La figure 4 montre un échantillon qualitatif du modèle.

Génération d’images. Dans cet article, les résultats de génération d’images de MAGVIT-v2 sont évalués sous les paramètres de condition de classe ImageNet standard. Les résultats montrent que le modèle proposé surpasse le modèle de diffusion le plus performant en termes de qualité d’échantillonnage (ID et IS) et d’efficacité du temps d’inférence (étape d’échantillonnage).

La figure 5 montre la visualisation.

Compression vidéo. Les résultats sont présentés dans le tableau 3, et le modèle surpasse MAGVIT sur tous les paramètres et surpasse toutes les méthodes sur LPIPS.

Compréhension vidéo. Comme le montre le tableau 4, MAGVIT-v2 surpasse le meilleur MAGVIT précédent dans ces évaluations.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)