Avec un remorqueur et un remorqueur, la rose prend vie ! Google propose une dynamique d'image générative, et tout sera désormais vivant

Source originale : Xinzhiyuan

Source de l'image : générée par Unbounded AI

Regardez, en tirant doucement, la rose commence à bouger.

En faisant glisser les feuilles vers la gauche, le pin se déplaçait dans la même direction.

Il existe également des images de divers objets dans le monde, qui peuvent prendre vie en un instant.

Il s'agit de la dernière recherche menée par l'équipe de Google, transformant vos mains en « doigts d'or magiques » capables de tout contrôler et de le déplacer d'un simple toucher.

Dans cet article, Google a proposé « Generative Image Dynamics », qui modélise l'espace d'image au préalable, puis entraîne le modèle à prédire la « texture de mouvement aléatoire neuronal ».

Finalement, il a été implémenté et même une boucle infinie de vidéo a pu être générée en interagissant avec une seule image.

À l’avenir, l’imagination des artistes ne sera plus limitée par les cadres traditionnels et tout sera possible dans cet espace d’image dynamique.

Tout sur la photo prend vie

Le mouvement de tout dans le monde est multimodal.

Les vêtements suspendus dans la cour se balançaient d'avant en arrière avec le vent.

Les grandes lanternes rouges accrochées dans la rue se balançaient dans les airs.

Il y a aussi un chaton qui dort à côté du rideau, son ventre respirant de haut en bas, tellement paresseux.

Ces mouvements ne sont généralement pas prévisibles : les bougies brûlent d'une certaine manière, les arbres se balancent au gré du vent, les feuilles bruissent...

En prenant une photo, les chercheurs pourront peut-être imaginer comment elle a bougé lorsque la photo a été prise.

Compte tenu du développement actuel des modèles génératifs, notamment des modèles de diffusion, il est possible de modéliser des distributions très riches et complexes.

Cela rend possibles de nombreuses applications qui étaient auparavant impossibles, comme la génération d'images arbitrairement réalistes à partir de texte. En plus d'être utile dans le domaine de l'image, le modèle de diffusion peut également être utilisé pour modéliser le domaine vidéo.

À partir de là, l’équipe de Google dans cette étude a modélisé un mouvement préalable génératif de la scène dans l’espace image, c’est-à-dire le mouvement de tous les pixels d’une seule image.

Le modèle est entraîné sur la base de trajectoires de mouvement automatiquement extraites d'un grand nombre de séquences vidéo réelles.

Conditionné sur l'image d'entrée, le modèle entraîné prédit une « texture de mouvement stochastique neuronale » : un ensemble de coefficients de mouvement de base qui décrivent la trajectoire future de chaque pixel.

Les chercheurs de Google ont limité la portée de leur étude à des scènes du monde réel présentant une dynamique de balancement naturelle, telles que des arbres et des fleurs soufflés par le vent. Ils ont donc choisi la série de Fourier comme fonction de base.

Ensuite, un modèle de diffusion est utilisé pour prédire les « textures de mouvement stochastique neuronal. » Le modèle génère uniquement des coefficients pour une fréquence à la fois, mais coordonne ces prédictions sur différentes bandes de fréquences.

La texture de l'espace-fréquence résultante peut être convertie en trajectoires de mouvement de pixels denses sur de longues distances, qui peuvent être utilisées pour synthétiser de futures images et transformer des images statiques en animations réalistes.

Voyons ensuite comment cela est mis en œuvre ?

Présentation de la technologie

Basé sur une seule image

, le but du chercheur est de générer une vidéo de longueur T

, cette vidéo peut montrer des arbres dynamiques, des fleurs ou des flammes de bougies se balançant dans la brise.

Le système construit par les chercheurs se compose de deux modules : « module de prédiction d'action » et « module de rendu basé sur l'image ».

Premièrement, les chercheurs ont utilisé un « modèle de diffusion latente » comme image d’entrée.

Prédire une texture de mouvement neuronal stochastique

C'est la représentation fréquentielle de la trajectoire de mouvement de chaque pixel dans l'image d'entrée.

Dans la deuxième étape, la transformée de Fourier discrète inverse est utilisée pour convertir la texture de mouvement aléatoire prédite en une série de champs de déplacement de mouvement.

Ces champs de déplacement de mouvement seront utilisés pour déterminer la position de chaque pixel d'entrée à chaque pas de temps futur.

Avec ces champs de mouvement prédits, le module de rendu des chercheurs utilise des techniques de rendu basées sur l'image pour récupérer les caractéristiques de codage des images RVB d'entrée et décode ces caractéristiques sélectionnées en images de sortie via un réseau de synthèse d'images.

Texture de mouvement neuronal aléatoire

texture de mouvement

Dans des recherches antérieures, la texture de mouvement définissait une série de cartes de déplacement 2D variant dans le temps.

où, chaque coordonnée de pixel p, à partir de l'image d'entrée

Le vecteur de déplacement 2D in définit la position du pixel à l'instant futur t.

Pour générer une future image au temps t, la carte de déplacement correspondante peut être utilisée, à partir de

Sélectionnez les pixels de , ce qui donne une image déformée vers l'avant :

Texture de mouvement aléatoire

Comme cela a été démontré précédemment dans la recherche en infographie, de nombreux mouvements naturels, en particulier les mouvements oscillatoires, peuvent être décrits comme la superposition d'un petit ensemble d'oscillateurs harmoniques, représentés par différentes fréquences, amplitudes et phases.

Une façon d’introduire du caractère aléatoire dans le mouvement consiste à intégrer des champs de bruit. Mais comme l’ont montré des recherches antérieures, l’ajout de bruit aléatoire directement dans les domaines spatial et temporel des champs de mouvement prédits aboutit souvent à des animations irréalistes ou instables.

De plus, l'utilisation de la texture de mouvement dans le domaine temporel défini ci-dessus signifie que T champs de déplacement 2D doivent être prédits pour générer un segment vidéo contenant T images. Pour éviter de prédire une représentation de sortie aussi grande, de nombreuses méthodes d'animation précédentes génèrent des images vidéo de manière autorégressive ou prédisent indépendamment chaque image de sortie future via une intégration temporelle supplémentaire.

Cependant, aucune des deux stratégies ne garantit que les images vidéo générées sont temporellement cohérentes sur le long terme, et les deux peuvent produire des vidéos qui dérivent ou divergent au fil du temps.

Pour résoudre les problèmes ci-dessus, les chercheurs représentent la texture de mouvement par pixel de la scène d'entrée dans le domaine fréquentiel (c'est-à-dire les trajectoires de mouvement complètes de tous les pixels) et formulent le problème de prédiction de mouvement sous la forme d'une conversion multimodale d'image en image. tâche.

Les chercheurs ont utilisé un modèle de diffusion latente (MLD) pour générer une texture de mouvement aléatoire constituée d'un spectrogramme de mouvement 2D à canal 4K, où K << T est le nombre de fréquences modélisées, et à chaque fréquence, les chercheurs avaient besoin de quatre scalaires pour représenter le coefficients de Fourier complexes dans les dimensions x et y.

L'image ci-dessous montre ces textures neuronales à mouvement aléatoire.

Alors, comment choisir la fréquence de sortie K indiquée par les chercheurs ? Des recherches antérieures sur l’animation en temps réel ont montré que la plupart des mouvements oscillatoires naturels sont principalement constitués de composantes basse fréquence.

Pour tester cette hypothèse, les chercheurs ont calculé le spectre de puissance moyen du mouvement extrait de 1 000 clips vidéo réels de 5 secondes échantillonnés au hasard. Comme le montre l'image de gauche ci-dessous, la puissance est principalement concentrée sur les composants basse fréquence.

Le spectre de fréquence d'une action diminue de façon exponentielle avec l'augmentation de la fréquence. Cela montre que la plupart des actions vibratoires naturelles peuvent effectivement être bien représentées par des termes basse fréquence.

En pratique, les chercheurs ont constaté que les premiers coefficients de Fourier K = 16 étaient suffisants pour reproduire fidèlement les mouvements naturels originaux dans une série de vidéos et de scènes réelles.

Utiliser le modèle de diffusion pour prédire les actions

Les chercheurs ont choisi le modèle de diffusion latente (LDM) comme noyau du module de prédiction d'action des chercheurs, car le LDM est plus efficace sur le plan informatique que le modèle de diffusion dans l'espace des pixels tout en conservant la qualité de la génération.

Un LDM standard comprend principalement deux modules :

  1. Un auto-encodeur variationnel (VAE) compresse l'image d'entrée dans l'espace latent via l'encodeur z = E(I), puis reconstruit l'entrée à partir des caractéristiques latentes via le décodeur I = D(z).

  2. Un modèle de diffusion basé sur U-Net, qui apprend à débruiter de manière itérative les caractéristiques latentes à partir du bruit aléatoire gaussien.

La formation des chercheurs a été appliquée non pas à des images d'entrée mais à des textures d'action aléatoires provenant de séquences vidéo réelles, qui ont été codées puis diffusées n étapes selon un programme de variance prédéfini pour produire des variables latentes bruyantes zn.

** Normalisation adaptative de fréquence **

Les chercheurs ont observé un problème dans lequel les textures à action aléatoire ont des propriétés de distribution de fréquence spécifiques. Comme le montre le panneau de gauche de l'image ci-dessus, l'amplitude de la texture de mouvement des chercheurs varie de 0 à 100 et décroît de manière exponentielle à mesure que la fréquence augmente.

Étant donné que les modèles de diffusion nécessitent des valeurs de sortie comprises entre 0 et 1 pour un entraînement et un débruitage stables, les chercheurs doivent normaliser les coefficients S extraits de vidéos réelles avant de s'entraîner avec eux.

Si les chercheurs adaptent l'ampleur des coefficients S à [0,1] en fonction de la largeur et de la hauteur de l'image, alors presque tous les coefficients seront proches de zéro à des fréquences plus élevées, comme le montre la figure ci-dessus (à droite).

Les modèles formés sur de telles données peuvent produire des actions inexactes car lors de l'inférence, même de petites erreurs de prédiction peuvent conduire à des erreurs relatives importantes après dénormalisation, lorsque la valeur normalisée du coefficient S est très proche de zéro.

Pour résoudre ce problème, les chercheurs ont utilisé une technique de normalisation adaptative en fréquence simple mais efficace. Plus précisément, les chercheurs ont d’abord normalisé les coefficients de Fourier à chaque fréquence indépendamment sur la base de statistiques calculées à partir de l’ensemble d’apprentissage.

Débruitage coordonné en fréquence

Un moyen simple de prédire une texture d’action aléatoire S avec K bandes de fréquences consiste à générer un tenseur avec des canaux 4K à partir d’un U-Net de diffusion standard.

Cependant, entraîner un modèle pour produire un si grand nombre de canaux produit souvent des résultats trop fluides et imprécis.

Une autre approche consiste à prédire indépendamment le spectrogramme d'action à chaque fréquence individuelle en injectant des intégrations de fréquence supplémentaires dans le LDM, mais cela conduit à des prédictions non pertinentes dans le domaine fréquentiel et donc à des actions irréalistes.

Par conséquent, les chercheurs ont proposé la stratégie de débruitage coordonnée en fréquence présentée dans la figure ci-dessous. Plus précisément, étant donné une image d'entrée I0, nous entraînons d'abord un LDM pour prédire des cartes de texture à action aléatoire avec quatre canaux pour chaque fréquence individuelle, où nous injectons des intégrations de fréquences supplémentaires dans le LDM ainsi que des intégrations de pas de temps dans le réseau.

### Rendu basé sur l'image

Les chercheurs décrivent en outre comment restituer une image ˆIt à un instant futur t en utilisant une texture de mouvement aléatoire S prédite pour une image d’entrée donnée I0. Premièrement, les chercheurs ont utilisé la FFT (Fast Fourier Transform) dans le domaine temporel inverse pour calculer le champ de trajectoire de mouvement à chaque point de pixel p.

Ces champs de trajectoire de mouvement déterminent la position de chaque pixel d'entrée à chaque pas de temps futur. Pour générer les futures images, les chercheurs utilisent une technique de rendu basée sur l'image en profondeur et effectuent une déformation vers l'avant (éclaboussures) en utilisant le champ de mouvement prédit pour déformer l'I0 codé, comme le montre la figure ci-dessous.

Étant donné que la déformation vers l'avant peut provoquer des trous dans l'image et que plusieurs pixels sources peuvent être mappés sur la même position de sortie 2D, les chercheurs ont adopté la stratégie de déformation de la pyramide de caractéristiques Softmax précédemment proposée dans la recherche sur l'interpolation d'image.

Nous entraînons conjointement l'extracteur de caractéristiques et le réseau de synthèse avec des images de départ et cibles échantillonnées aléatoirement à partir de vidéos réelles, où nous déformons les caractéristiques codées de I0 en utilisant le champ de flux estimé de I0 à It, et utilisons la perte de perception VGG pour prédire ˆIl effectue la supervision .

Comme indiqué ci-dessus, notre fonction de déformation sensible au mouvement produit un cadre sans trous ni artefacts par rapport aux méthodes de déformation moyenne directe et de déformation en profondeur de base.

Autres applications étendues

Les chercheurs ont en outre démontré l'application de l'ajout d'effets dynamiques à une seule image statique en utilisant le processus de représentation de mouvement et d'animation proposé par les chercheurs.

Image en vidéo

Le système des chercheurs anime une seule image statique en prédisant d'abord une texture de mouvement neuronal aléatoire à partir de l'image d'entrée, puis en appliquant le module de rendu basé sur l'image des chercheurs à un champ de déplacement de mouvement dérivé de la texture de mouvement aléatoire.

Parce que nous avons modélisé explicitement le mouvement de la scène, cela nous a permis de générer des vidéos au ralenti en interpolant linéairement les champs de déplacement de mouvement et en effectuant un zoom avant (ou vers le bas) du mouvement animé en ajustant l'amplitude des coefficients de texture de mouvement aléatoire prédits.

Boucle harmonieuse

Parfois, il est utile de générer des vidéos avec un mouvement en boucle fluide, ce qui signifie qu'il n'y a pas de discontinuité dans l'apparence ou le mouvement entre le début et la fin de la vidéo.

Malheureusement, il est difficile de trouver un vaste ensemble de vidéos de formation en boucle transparente. Par conséquent, les chercheurs ont conçu une méthode utilisant le modèle de diffusion de mouvement des chercheurs, qui a été formé sur des clips vidéo réguliers sans boucle, pour produire des vidéos en boucle transparente.

Inspirée par des recherches récentes sur l'édition d'images guidées, l'approche des chercheurs est une technique de mouvement autoguidée qui utilise des contraintes de boucle explicites pour guider le processus d'échantillonnage de débruitage de mouvement.

Plus précisément, au cours de chaque étape itérative de débruitage de la phase d'inférence, les chercheurs ont inclus un signal de guidage de mouvement supplémentaire aux côtés du guidage standard sans classificateur, dans lequel nous avons forcé chaque pixel à se trouver aux positions de début et de fin de l'image et les vitesses sont aussi similaires que possible.

Générez des animations interactives à partir d'une seule image

Le spectre de mouvement spatial de l'image dans une vidéo observée d'un objet oscillant se rapproche de la base modale de vibration physique de l'objet.

Les formes modales capturent la dynamique oscillatoire d'un objet à différentes fréquences, de sorte que les projections dans l'espace image des modèles de vibration d'un objet peuvent être utilisées pour modéliser la réponse de l'objet à une force définie par l'utilisateur, telle qu'une poussée ou une traction.

Par conséquent, les chercheurs ont utilisé une technique d’analyse modale précédemment étudiée, qui suppose que le mouvement d’un objet peut être expliqué par la superposition d’un ensemble de résonateurs.

Cela permet aux chercheurs d'écrire le champ de déplacement de mouvement bidimensionnel de l'espace image de la réponse physique de l'objet sous la forme d'une somme pondérée des coefficients du spectre de Fourier et des coordonnées modales complexes de chaque pas de temps de simulation t et du temps t.

Évaluation expérimentale

L'équipe de recherche a effectué une comparaison quantitative entre la méthode la plus récente et la méthode de base sur un ensemble test de clips vidéo inédits.

Il a été constaté que l'approche de Google surpassait considérablement les précédentes références d'animation à image unique en termes de qualité de synthèse d'image et de vidéo.

Plus précisément, les distances FVD et DT-FVD de Google sont beaucoup plus faibles, ce qui indique que les vidéos générées par cette méthode sont plus réalistes et temporellement cohérentes.

De plus, la figure 6 montre les distances de fenêtre glissante FID et de fenêtre glissante DT-FVD de vidéos générées par différentes méthodes.

Étant donné que Google utilise une représentation globale de texture de mouvement stochastique, son approche génère des vidéos plus cohérentes dans le temps et ne dérivent ni ne se dégradent avec le temps.

De plus, l'équipe de Google a effectué une comparaison qualitative visuelle entre sa propre méthode et les vidéos générées par la référence de deux manières.

Tout d’abord, la tranche spatio-temporelle Xt de la vidéo générée est affichée, comme le montre la figure 7.

La dynamique des vidéos générées par Google est plus similaire aux modèles de mouvement observés dans les vidéos de référence réelles correspondantes (deuxième colonne). Les lignes de base telles que l'I2V aléatoire et le MCVD ne peuvent pas simuler de manière réaliste l'apparence et le mouvement au fil du temps.

Nous prédisons également les images en visualisant

et son champ de déplacement de mouvement correspondant au temps t = 128. Comparaison qualitative de la qualité de chaque image et mouvement générés dans différentes méthodes.

La méthode générée par Google produit des images qui présentent moins d'artefacts et de distorsions par rapport aux autres méthodes, et les champs de mouvement 2D correspondants sont très similaires aux champs de déplacement de référence estimés à partir des vidéos réelles correspondantes.

Étude d'ablation : il ressort du tableau 2 que toutes les configurations plus simples ou alternatives entraînent de moins bonnes performances par rapport au modèle complet.

A propos de l'auteur

Zheng Qi Li

Zhengqi Li est chercheur scientifique chez Google Research. Ses intérêts de recherche incluent la vision par ordinateur 3D/4D, le rendu basé sur l’image et la photographie informatique, en particulier dans les images et vidéos sauvages. Il a obtenu son doctorat en informatique à l'Université Cornell, où il a été encadré par Noah Snavely.

Il est récipiendaire du CVPR 2019 Best Paper Honorable Mention Award, de la Google PhD Scholarship 2020, de la Adobe Research Fellowship 2020, du Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 et du CVPR 2023 Best Paper Honorary Award.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)