habitué à la diffusion stable, et dispose enfin d’un modèle Matryoshka Diffusion, encore une fois fabriqué par Apple.
Source originale : Heart of the Machine
Source de l’image : Généré par Unbounded AI
À l’ère de l’IA générative, les modèles de diffusion sont devenus un outil populaire pour les applications d’IA générative telles que la génération d’images, de vidéos, de 3D, d’audio et de texte. Cependant, l’extension du modèle de diffusion au domaine de la haute résolution reste un défi majeur, car le modèle doit recoder toutes les entrées à haute résolution à chaque étape. La résolution de ces défis nécessite l’utilisation d’architectures profondes avec des blocs d’attention, ce qui rend l’optimisation plus difficile et consomme plus de puissance de calcul et de mémoire.
Que faire ? Certains travaux récents se sont concentrés sur des architectures réseau efficaces pour les images haute résolution. Cependant, aucune des méthodes existantes n’affiche de résultats au-delà de la résolution 512×512, et la qualité de la génération est inférieure à celle des méthodes en cascade ou latentes traditionnelles.
Prenons l’exemple d’OpenAI DALL-E 2, de Google IMAGEN et de NVIDIA eDiffI, qui permettent d’économiser de la puissance de calcul en apprenant un seul modèle basse résolution et plusieurs modèles de diffusion super-résolution, où chaque composant est entraîné séparément. D’autre part, les modèles de diffusion latente (LDM) n’apprennent que des modèles de diffusion à basse résolution et s’appuient sur des auto-encodeurs haute résolution entraînés individuellement. Dans les deux cas, les pipelines à plusieurs étapes compliquent l’apprentissage et l’inférence, ce qui nécessite souvent un réglage fin ou une hyperparamétrage.
Dans cet article, les chercheurs proposent des modèles de diffusion Matriochka (MDM), un nouveau modèle de diffusion pour la génération d’images haute résolution de bout en bout. Le code sera publié prochainement.
Adresse:
L’idée principale présentée dans l’étude est d’effectuer un processus de diffusion conjointe à plusieurs résolutions en utilisant une architecture UNet imbriquée dans le cadre de la génération haute résolution.
L’étude a révélé que MDM, associé à l’architecture UNet imbriquée, a permis d’obtenir 1) une perte multi-résolution : une amélioration considérable de la vitesse de convergence du débruitage d’entrée haute résolution ; 2) Un plan d’entraînement progressif efficace, en commençant par l’entraînement d’un modèle de diffusion à basse résolution et en ajoutant progressivement des entrées et des sorties à haute résolution comme prévu. Les résultats expérimentaux montrent que la combinaison de la perte multi-résolution et de l’apprentissage progressif permet d’obtenir un meilleur équilibre entre le coût de l’entraînement et la qualité du modèle.
L’étude a évalué le MDM en termes de génération d’images conditionnelles de classe ainsi que de génération d’images et de vidéos conditionnelles au texte. Le MDM permet d’entraîner des modèles haute résolution sans avoir besoin de cascades ou de diffusion latente. Des études d’ablation ont montré que la perte de résolution multiple et l’entraînement progressif améliorent considérablement l’efficacité et la qualité de l’entraînement.
Jetons un coup d’œil aux images et vidéos générées par MDM suivantes.
Aperçu de la méthodologie
Selon les chercheurs, le modèle de diffusion MDM est entraîné de bout en bout en haute résolution tout en utilisant la formation de données hiérarchiques. Le MDM généralise d’abord le modèle de diffusion standard dans l’espace de diffusion, puis propose une architecture imbriquée dédiée et un processus d’entraînement.
Tout d’abord, voyons comment généraliser le modèle de diffusion standard dans l’espace étendu.
Contrairement aux approches en cascade ou latentes, le MDM apprend un processus de diffusion unique avec une structure hiérarchique en introduisant un processus de diffusion multi-résolution dans un espace étendu. C’est ce que montre la figure 2 ci-dessous.
Plus précisément, étant donné un point de données x ∈ R^N, le chercheur définit la variable latente dépendante du temps z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+... NR.
Selon les chercheurs, la modélisation de la diffusion dans un espace étendu présente deux avantages. D’une part, nous sommes généralement préoccupés par la sortie à pleine résolution z_t^R lors de l’inférence, et toutes les autres sorties à moyenne résolution sont traitées comme des variables latentes supplémentaires z_t^r, ce qui ajoute de la complexité à la distribution de modélisation. Deuxièmement, les dépendances multi-résolution offrent la possibilité de partager des poids et des calculs sur z_t^r, redistribuant le calcul de manière plus efficace et permettant un entraînement et une inférence efficaces.
Jetons un coup d’œil au fonctionnement de nestedUNet.
À l’instar des modèles de diffusion typiques, les chercheurs ont mis en œuvre le MDM à l’aide d’une structure de réseau UNet, dans laquelle les connexions résiduelles et les blocs de calcul sont utilisés en parallèle pour préserver les informations d’entrée à grain fin. Les blocs de calcul ici contiennent des convolutions multicouches et des couches d’auto-attention. Les codes pour NestedUNet et UNet standard sont les suivants.
En plus de sa simplicité par rapport à d’autres méthodes hiérarchiques, NestedUNet permet d’allouer les calculs de la manière la plus efficace. Comme le montre la figure 3 ci-dessous, les premiers chercheurs ont constaté que le MDM atteignait une évolutivité nettement meilleure lorsque la plupart des paramètres et des calculs étaient alloués à la résolution la plus basse.
Enfin, il y a l’apprentissage.
Les chercheurs ont entraîné le MDM à plusieurs résolutions à l’aide de cibles de débruitage conventionnelles, comme le montre l’équation (3) ci-dessous.
L’entraînement progressif est utilisé ici. Les chercheurs ont entraîné le MDM directement de bout en bout en suivant l’équation ci-dessus (3) et ont démontré une meilleure convergence que la méthode de référence originale. Ils ont constaté que l’entraînement des modèles à haute résolution était considérablement accéléré à l’aide d’une méthode d’entraînement progressive simple similaire à celle proposée dans l’article du GAN.
Cette méthode d’entraînement permet d’éviter dès le départ un entraînement coûteux et à haute résolution et d’accélérer la convergence globale. Non seulement cela, mais ils ont également intégré une formation à résolution mixte, qui entraîne simultanément des échantillons avec différentes résolutions finales dans un seul lot.
Expériences et résultats
MDM est une technologie polyvalente pour tout problème qui peut comprimer progressivement les dimensions d’entrée. La comparaison entre le MDM et l’approche de base est illustrée à la figure 4 ci-dessous.
Le tableau 1 présente une comparaison entre ImageNet (FID-50K) et COCO (FID-30K).
Les figures 5, 6 et 7 ci-dessous illustrent les résultats de la MDM dans la génération d’images (Figure 5), la conversion de texte en image (Figure 6) et la conversion de texte en vidéo (Figure 7). Bien qu’il ait été entraîné sur un ensemble de données relativement petit, le MDM a démontré une forte capacité à produire des images et des vidéos haute résolution.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Le grand modèle du diagramme de Wensheng d’Apple a été dévoilé : diffusion matriochka, supportant une résolution de 1024x1024
Source originale : Heart of the Machine
À l’ère de l’IA générative, les modèles de diffusion sont devenus un outil populaire pour les applications d’IA générative telles que la génération d’images, de vidéos, de 3D, d’audio et de texte. Cependant, l’extension du modèle de diffusion au domaine de la haute résolution reste un défi majeur, car le modèle doit recoder toutes les entrées à haute résolution à chaque étape. La résolution de ces défis nécessite l’utilisation d’architectures profondes avec des blocs d’attention, ce qui rend l’optimisation plus difficile et consomme plus de puissance de calcul et de mémoire.
Que faire ? Certains travaux récents se sont concentrés sur des architectures réseau efficaces pour les images haute résolution. Cependant, aucune des méthodes existantes n’affiche de résultats au-delà de la résolution 512×512, et la qualité de la génération est inférieure à celle des méthodes en cascade ou latentes traditionnelles.
Prenons l’exemple d’OpenAI DALL-E 2, de Google IMAGEN et de NVIDIA eDiffI, qui permettent d’économiser de la puissance de calcul en apprenant un seul modèle basse résolution et plusieurs modèles de diffusion super-résolution, où chaque composant est entraîné séparément. D’autre part, les modèles de diffusion latente (LDM) n’apprennent que des modèles de diffusion à basse résolution et s’appuient sur des auto-encodeurs haute résolution entraînés individuellement. Dans les deux cas, les pipelines à plusieurs étapes compliquent l’apprentissage et l’inférence, ce qui nécessite souvent un réglage fin ou une hyperparamétrage.
Dans cet article, les chercheurs proposent des modèles de diffusion Matriochka (MDM), un nouveau modèle de diffusion pour la génération d’images haute résolution de bout en bout. Le code sera publié prochainement.
L’idée principale présentée dans l’étude est d’effectuer un processus de diffusion conjointe à plusieurs résolutions en utilisant une architecture UNet imbriquée dans le cadre de la génération haute résolution.
L’étude a révélé que MDM, associé à l’architecture UNet imbriquée, a permis d’obtenir 1) une perte multi-résolution : une amélioration considérable de la vitesse de convergence du débruitage d’entrée haute résolution ; 2) Un plan d’entraînement progressif efficace, en commençant par l’entraînement d’un modèle de diffusion à basse résolution et en ajoutant progressivement des entrées et des sorties à haute résolution comme prévu. Les résultats expérimentaux montrent que la combinaison de la perte multi-résolution et de l’apprentissage progressif permet d’obtenir un meilleur équilibre entre le coût de l’entraînement et la qualité du modèle.
L’étude a évalué le MDM en termes de génération d’images conditionnelles de classe ainsi que de génération d’images et de vidéos conditionnelles au texte. Le MDM permet d’entraîner des modèles haute résolution sans avoir besoin de cascades ou de diffusion latente. Des études d’ablation ont montré que la perte de résolution multiple et l’entraînement progressif améliorent considérablement l’efficacité et la qualité de l’entraînement.
Jetons un coup d’œil aux images et vidéos générées par MDM suivantes.
Selon les chercheurs, le modèle de diffusion MDM est entraîné de bout en bout en haute résolution tout en utilisant la formation de données hiérarchiques. Le MDM généralise d’abord le modèle de diffusion standard dans l’espace de diffusion, puis propose une architecture imbriquée dédiée et un processus d’entraînement.
Tout d’abord, voyons comment généraliser le modèle de diffusion standard dans l’espace étendu.
Contrairement aux approches en cascade ou latentes, le MDM apprend un processus de diffusion unique avec une structure hiérarchique en introduisant un processus de diffusion multi-résolution dans un espace étendu. C’est ce que montre la figure 2 ci-dessous.
Jetons un coup d’œil au fonctionnement de nestedUNet.
À l’instar des modèles de diffusion typiques, les chercheurs ont mis en œuvre le MDM à l’aide d’une structure de réseau UNet, dans laquelle les connexions résiduelles et les blocs de calcul sont utilisés en parallèle pour préserver les informations d’entrée à grain fin. Les blocs de calcul ici contiennent des convolutions multicouches et des couches d’auto-attention. Les codes pour NestedUNet et UNet standard sont les suivants.
Les chercheurs ont entraîné le MDM à plusieurs résolutions à l’aide de cibles de débruitage conventionnelles, comme le montre l’équation (3) ci-dessous.
Cette méthode d’entraînement permet d’éviter dès le départ un entraînement coûteux et à haute résolution et d’accélérer la convergence globale. Non seulement cela, mais ils ont également intégré une formation à résolution mixte, qui entraîne simultanément des échantillons avec différentes résolutions finales dans un seul lot.
Expériences et résultats
MDM est une technologie polyvalente pour tout problème qui peut comprimer progressivement les dimensions d’entrée. La comparaison entre le MDM et l’approche de base est illustrée à la figure 4 ci-dessous.