Mira, con un suave tirón la rosa empieza a moverse.
Arrastrando las hojas hacia la izquierda, el pino se movió en la misma dirección.
También hay imágenes de varios objetos del mundo, que pueden cobrar vida en un instante.
Esta es la última investigación del equipo de Google, que convierte tus manos en "dedos dorados mágicos" que pueden controlar todo y moverlo con un toque.
En este artículo, Google propuso "Dinámica de imagen generativa", que modela el espacio de la imagen antes y luego entrena el modelo para predecir la "textura de movimiento aleatorio neuronal".
Finalmente se implementó, e incluso se pudo generar un bucle infinito de vídeo interactuando con una sola imagen.
En el futuro, la imaginación de los artistas ya no estará limitada por los marcos tradicionales y todo será posible en este dinámico espacio de imágenes.
Todo en la imagen cobra vida
El movimiento de todo en el mundo es multimodal.
La ropa colgada en el patio se balanceaba hacia adelante y hacia atrás con el viento.
Los grandes faroles rojos que colgaban de la calle se balanceaban en el aire.
También hay un gatito durmiendo junto a la cortina, su barriga respira arriba y abajo, muy perezoso.
Estos movimientos no suelen ser predecibles: las velas arden de una determinada manera, los árboles se mecen con el viento, las hojas crujen...
Al tomar una fotografía, los investigadores pueden imaginar cómo se movió cuando se tomó la foto.
Dado el desarrollo actual de modelos generativos, especialmente modelos de difusión, es posible modelar distribuciones muy ricas y complejas.
Esto hace posibles muchas aplicaciones que antes eran imposibles, como generar imágenes arbitrariamente realistas a partir de texto. Además de ser útil en el campo de la imagen, el modelo de difusión también se puede utilizar para modelar el campo del vídeo.
A partir de esto, el equipo de Google en este estudio modeló una generación previa del movimiento de la escena en el espacio de la imagen, es decir, el movimiento de todos los píxeles en una sola imagen.
El modelo se entrena en función de trayectorias de movimiento extraídas automáticamente de una gran cantidad de secuencias de video reales.
Condicionado a la imagen de entrada, el modelo entrenado predice una "textura de movimiento estocástico neuronal": un conjunto de coeficientes de movimiento básicos que describen la trayectoria futura de cada píxel.
Los investigadores de Google limitaron el alcance de su estudio a escenas del mundo real con dinámicas de balanceo naturales, como árboles y flores movidos por el viento, por lo que eligieron series de Fourier como función base.
Luego, se utiliza un modelo de difusión para predecir "texturas de movimiento estocástico neuronal". El modelo solo genera coeficientes para una frecuencia a la vez, pero coordina estas predicciones en diferentes bandas de frecuencia.
La textura de espacio-frecuencia resultante se puede transformar en densas trayectorias de movimiento de píxeles de larga distancia que se pueden utilizar para sintetizar fotogramas futuros, convirtiendo imágenes estáticas en animaciones realistas.
A continuación, echemos un vistazo a cómo se implementa.
Introducción a la tecnología
Basado en una sola imagen
, el objetivo del investigador es generar un vídeo de duración T
, este video puede mostrar árboles dinámicos, flores o llamas de velas meciéndose con la brisa.
El sistema construido por los investigadores consta de dos módulos: "módulo de predicción de acciones" y "módulo de renderizado basado en imágenes".
Primero, los investigadores utilizaron un "modelo de difusión latente" como imagen de entrada.
Predecir una textura de movimiento estocástico neuronal
Es la representación en frecuencia de la trayectoria de movimiento de cada píxel en la imagen de entrada.
En el segundo paso, se utiliza la transformada discreta inversa de Fourier para convertir la textura de movimiento aleatorio predicha en una serie de campos de desplazamiento de movimiento.
。
Estos campos de desplazamiento de movimiento se utilizarán para determinar la posición de cada píxel de entrada en cada paso de tiempo futuro.
Con estos campos de movimiento predichos, el módulo de renderizado de los investigadores utiliza técnicas de renderizado basadas en imágenes para recoger características de codificación de las imágenes RGB de entrada y decodifica estas características seleccionadas en fotogramas de salida a través de una red de síntesis de imágenes.
Textura de movimiento aleatorio neuronal
textura de movimiento
En investigaciones anteriores, la textura de movimiento definió una serie de mapas de desplazamiento 2D que varían en el tiempo.
donde, cada píxel coordina p, de la imagen de entrada
El vector de desplazamiento 2D define la posición del píxel en el tiempo futuro t.
Para generar un marco futuro en el tiempo t, se puede utilizar el mapa de desplazamiento correspondiente, desde
Elija píxeles de , lo que dará como resultado una imagen deformada hacia adelante:
Textura de movimiento aleatorio
Como se ha demostrado anteriormente en la investigación de gráficos por computadora, muchos movimientos naturales, especialmente los movimientos oscilatorios, pueden describirse como la superposición de un pequeño conjunto de osciladores armónicos, representados por diferentes frecuencias, amplitudes y fases.
Una forma de introducir aleatoriedad en el movimiento es integrar campos de ruido. Pero como han demostrado investigaciones anteriores, agregar ruido aleatorio directamente a los dominios espaciales y temporales de los campos de movimiento predichos a menudo resulta en animaciones poco realistas o inestables.
Además, utilizar la textura de movimiento en el dominio temporal definido anteriormente significa que es necesario predecir los campos de desplazamiento T 2D para generar un segmento de vídeo que contenga T fotogramas. Para evitar predecir una representación de salida tan grande, muchos métodos de animación anteriores generan fotogramas de vídeo de forma autorregresiva o predicen de forma independiente cada fotograma de salida futuro mediante una incrustación temporal adicional.
Sin embargo, ninguna de las estrategias garantiza que los fotogramas de vídeo generados sean temporalmente consistentes a largo plazo, y ambas pueden producir vídeos que se desvían o divergen con el tiempo.
Para resolver los problemas anteriores, los investigadores representan la textura de movimiento por píxel de la escena de entrada en el dominio de la frecuencia (es decir, las trayectorias de movimiento completas de todos los píxeles) y formulan el problema de predicción de movimiento como una conversión multimodal de imagen a imagen. tarea.
Los investigadores utilizaron un modelo de difusión latente (LDM) para generar una textura de movimiento aleatorio que consiste en un espectrograma de movimiento 2D de canal 4K, donde K << T es el número de frecuencias modeladas, y en cada frecuencia, los investigadores necesitaron cuatro escalares para representar la Coeficientes de Fourier complejos en las dimensiones x e y.
La siguiente imagen muestra estas texturas neuronales de movimiento aleatorio.
Entonces, ¿cómo se debe elegir la frecuencia de salida de K indicada por los investigadores? Investigaciones anteriores sobre animación en tiempo real han demostrado que la mayoría de los movimientos oscilatorios naturales se componen principalmente de componentes de baja frecuencia.
Para probar esta hipótesis, los investigadores calcularon el espectro de potencia promedio del movimiento extraído de 1.000 clips de vídeo reales de 5 segundos muestreados aleatoriamente. Como se muestra en la imagen de la izquierda a continuación, la potencia se concentra principalmente en los componentes de baja frecuencia.
El espectro de frecuencia de una acción disminuye exponencialmente al aumentar la frecuencia. Esto muestra que la mayoría de las acciones vibratorias naturales pueden representarse bien mediante términos de baja frecuencia.
En la práctica, los investigadores descubrieron que los primeros coeficientes de Fourier K = 16 eran suficientes para reproducir fielmente los movimientos naturales originales en una variedad de vídeos y escenas reales.
Utilice el modelo de difusión para predecir acciones.
Los investigadores eligieron el modelo de difusión latente (LDM) como núcleo del módulo de predicción de acciones de los investigadores porque el LDM es más eficiente desde el punto de vista computacional que el modelo de difusión del espacio de píxeles y, al mismo tiempo, mantiene la calidad de generación.
Un LDM estándar incluye principalmente dos módulos:
Un codificador automático variacional (VAE) comprime la imagen de entrada en el espacio latente a través del codificador z = E(I), y luego reconstruye la entrada a partir de las características latentes a través del decodificador I = D(z).
Un modelo de difusión basado en U-Net, que aprende a eliminar iterativamente características latentes a partir del ruido aleatorio gaussiano.
La capacitación de los investigadores no se aplicó a imágenes de entrada sino a texturas de acción aleatorias de secuencias de video reales, que se codificaron y luego difundieron n pasos en un programa de varianza predefinido para producir variables latentes ruidosas zn.
Normalización adaptativa de frecuencia
Los investigadores observaron un problema en el que las texturas de acción aleatoria tienen propiedades de distribución de frecuencia específicas. Como se muestra en el panel izquierdo de la imagen de arriba, la amplitud de la textura de movimiento de los investigadores varía de 0 a 100 y decae aproximadamente exponencialmente a medida que aumenta la frecuencia.
Dado que los modelos de difusión requieren valores de salida entre 0 y 1 para un entrenamiento y eliminación de ruido estables, los investigadores deben normalizar los coeficientes S extraídos de videos reales antes de entrenar con ellos.
Si los investigadores escalan la magnitud de los coeficientes S a [0,1] en función del ancho y alto de la imagen, entonces casi todos los coeficientes estarán cerca de cero en frecuencias más altas, como se muestra en la figura anterior (derecha).
Los modelos entrenados con dichos datos pueden producir acciones inexactas porque durante la inferencia, incluso pequeños errores de predicción pueden conducir a grandes errores relativos después de la desnormalización, cuando el S normalizado La magnitud del coeficiente es muy cercana a cero.
Para resolver este problema, los investigadores emplearon una técnica de normalización adaptativa de frecuencia simple pero efectiva. Específicamente, los investigadores primero normalizaron los coeficientes de Fourier en cada frecuencia de forma independiente basándose en estadísticas calculadas a partir del conjunto de entrenamiento.
Eliminación de ruido coordinada por frecuencia
Una forma sencilla de predecir una textura de acción aleatoria S con K bandas de frecuencia es generar un tensor con canales 4K desde una U-Net de difusión estándar.
Sin embargo, entrenar un modelo para producir una cantidad tan grande de canales a menudo produce resultados demasiado fluidos e inexactos.
Otro enfoque es predecir el espectrograma de acción en cada frecuencia individual de forma independiente inyectando incorporaciones de frecuencia adicionales en el LDM, pero esto conduce a predicciones irrelevantes en el dominio de la frecuencia y, por lo tanto, a acciones poco realistas.
Por lo tanto, los investigadores propusieron la estrategia de eliminación de ruido coordinada en frecuencia que se muestra en la siguiente figura. Específicamente, dada una imagen de entrada I0, primero entrenamos un LDM para predecir mapas de textura de acción aleatoria con cuatro canales para cada frecuencia individual, donde inyectamos incorporaciones de frecuencia adicionales en el LDM junto con incorporaciones de pasos de tiempo en la red.
### Representación basada en imágenes
Los investigadores describen además cómo renderizar un cuadro ˆIt en el tiempo futuro t utilizando una textura de movimiento aleatorio S predicha para una imagen de entrada determinada I0. Primero, los investigadores utilizaron FFT (Transformada Rápida de Fourier) en el dominio del tiempo inverso para calcular el campo de trayectoria de movimiento en cada punto de píxel p.
Estos campos de trayectoria de movimiento determinan la posición de cada píxel de entrada en cada paso de tiempo futuro. Para generar fotogramas futuros, los investigadores emplean una técnica de representación basada en imágenes de profundidad y realizan deformación hacia adelante (salpicaduras) utilizando el campo de movimiento predicho para deformar el I0 codificado, como se muestra en la siguiente figura.
Dado que la deformación hacia adelante puede causar agujeros en la imagen y se pueden asignar múltiples píxeles de origen a la misma posición 2D de salida, los investigadores adoptaron la estrategia de deformación de pirámide de características Softmax propuesta previamente en la investigación de interpolación de cuadros.
Entrenamos conjuntamente el extractor de características y la red de síntesis con cuadros de inicio y destino muestreados aleatoriamente de videos reales, donde usamos el campo de flujo estimado de I0 a It para deformar las características codificadas de I0 y usamos la pérdida de percepción VGG para predecir. Lleva a cabo la supervisión. .
Como se muestra arriba, nuestra deformación de características con reconocimiento de movimiento produce un marco sin agujeros ni artefactos en comparación con los métodos de deformación promedio directa y deformación de profundidad de línea base.
Aplicaciones extendidas adicionales
Los investigadores demostraron además la aplicación de agregar efectos dinámicos a una sola imagen estática utilizando el proceso de animación y representación de movimiento propuesto por los investigadores.
Imagen a vídeo
El sistema de los investigadores anima una única imagen estática prediciendo primero una textura de movimiento aleatorio neuronal a partir de la imagen de entrada y aplicando el módulo de representación basado en imágenes de los investigadores a un campo de desplazamiento de movimiento derivado de la textura de movimiento aleatorio.
Debido a que modelamos explícitamente el movimiento de la escena, esto nos permitió generar videos en cámara lenta interpolando linealmente campos de desplazamiento de movimiento y acercando (o alejando) el movimiento animado ajustando la amplitud de los coeficientes de textura de movimiento aleatorio predichos.
Bucle sin interrupción
A veces resulta útil generar vídeos con un movimiento en bucle continuo, lo que significa que no hay discontinuidad en la apariencia o el movimiento entre el principio y el final del vídeo.
Desafortunadamente, es difícil encontrar un gran conjunto de capacitación con videos que se reproduzcan sin interrupciones. Por lo tanto, los investigadores idearon un método utilizando el modelo de difusión de movimiento de los investigadores, que se entrenó en clips de vídeo normales sin bucle, para producir vídeos en bucle sin interrupciones.
Inspirado en investigaciones recientes sobre edición guiada de imágenes, el enfoque de los investigadores es una técnica autoguiada de movimiento que utiliza restricciones de bucle explícitas para guiar el proceso de muestreo de eliminación de ruido del movimiento.
Específicamente, durante cada paso iterativo de eliminación de ruido de la fase de inferencia, los investigadores incluyeron una señal de guía de movimiento adicional junto con la guía estándar sin clasificador, donde forzamos a cada píxel a estar en las posiciones inicial y final del cuadro y las velocidades son lo más similares posible.
Genera animaciones interactivas a partir de una sola imagen
El espectro de movimiento espacial de la imagen en un vídeo observado de un objeto oscilante se aproxima a la base modal de vibración física del objeto.
Las formas modales capturan la dinámica oscilatoria de un objeto a diferentes frecuencias, por lo que se puede utilizar una proyección en el espacio de imagen de los patrones de vibración de un objeto para modelar la respuesta del objeto a una fuerza definida por el usuario, como un empujón o un tirón.
Por ello, los investigadores utilizaron una técnica de análisis modal previamente estudiada, que supone que el movimiento de un objeto puede explicarse mediante la superposición de un conjunto de resonadores.
Esto permite a los investigadores escribir el campo de desplazamiento de movimiento bidimensional del espacio de la imagen de la respuesta física del objeto como una suma ponderada de los coeficientes del espectro de Fourier y las coordenadas modales complejas de cada paso de tiempo de simulación t, y el tiempo t.
Evaluación experimental
El equipo de investigación realizó una comparación cuantitativa entre el método más reciente y el método básico en un conjunto de prueba de videoclips no vistos.
Se descubrió que el enfoque de Google superó significativamente las líneas base de animación de una sola imagen anteriores en calidad de síntesis de imagen y video.
Específicamente, las distancias FVD y DT-FVD de Google son mucho más bajas, lo que indica que los videos generados por este método son más realistas y temporalmente coherentes.
Además, la Figura 6 muestra las distancias de ventana deslizante FID y ventana deslizante DT-FVD de videos generados por diferentes métodos.
Debido a que Google emplea una representación de textura de movimiento estocástico global, su enfoque genera videos que son más consistentes en el tiempo y no se desvían ni se degradan con el tiempo.
Además, el equipo de Google realizó una comparación visual cualitativa entre su propio método y los vídeos generados por la línea base de dos maneras.
Primero, se muestra el corte espaciotemporal Xt del video generado, como se muestra en la Figura 7.
La dinámica de los vídeos generados por Google es más similar a los patrones de movimiento observados en los vídeos de referencia reales correspondientes (segunda columna). Las líneas de base como I2V aleatoria y MCVD no pueden simular de manera realista la apariencia y el movimiento a lo largo del tiempo.
También predecimos imágenes visualizando
y su correspondiente campo de desplazamiento de movimiento en el tiempo t = 128. Comparación cualitativa de la calidad de cada cuadro generado y movimiento en diferentes métodos.
El método generado por Google genera cuadros que exhiben menos artefactos y distorsiones en comparación con otros métodos, y los campos de movimiento 2D correspondientes son más similares a los campos de desplazamiento de referencia estimados a partir de los videos reales correspondientes.
Estudio de ablación: En la Tabla 2 se observa que todas las configuraciones más simples o alternativas dan como resultado un peor rendimiento en comparación con el modelo completo.
Sobre el Autor
Zhengqi Li
Zhengqi Li es investigador científico en Google Research. Sus intereses de investigación incluyen visión por computadora 3D/4D, renderizado basado en imágenes y fotografía computacional, especialmente en imágenes y videos naturales. Recibió su doctorado en Ciencias de la Computación de la Universidad de Cornell, donde fue asesorado por Noah Snavely.
Recibió el premio CVPR 2019 Best Paper Honorable Award, la beca de doctorado de Google 2020, la beca de investigación Adobe 2020, el premio Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 y el premio CVPR 2023 Best Paper Honorary Award.
Referencias:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Con un tirón y un tirón, la rosa cobra vida! Google propone dinámicas generativas de imágenes, y todo estará vivo a partir de ahora
Fuente original: Xinzhiyuan
Mira, con un suave tirón la rosa empieza a moverse.
Finalmente se implementó, e incluso se pudo generar un bucle infinito de vídeo interactuando con una sola imagen.
En el futuro, la imaginación de los artistas ya no estará limitada por los marcos tradicionales y todo será posible en este dinámico espacio de imágenes.
Todo en la imagen cobra vida
El movimiento de todo en el mundo es multimodal.
La ropa colgada en el patio se balanceaba hacia adelante y hacia atrás con el viento.
Al tomar una fotografía, los investigadores pueden imaginar cómo se movió cuando se tomó la foto.
Dado el desarrollo actual de modelos generativos, especialmente modelos de difusión, es posible modelar distribuciones muy ricas y complejas.
Esto hace posibles muchas aplicaciones que antes eran imposibles, como generar imágenes arbitrariamente realistas a partir de texto. Además de ser útil en el campo de la imagen, el modelo de difusión también se puede utilizar para modelar el campo del vídeo.
El modelo se entrena en función de trayectorias de movimiento extraídas automáticamente de una gran cantidad de secuencias de video reales.
Condicionado a la imagen de entrada, el modelo entrenado predice una "textura de movimiento estocástico neuronal": un conjunto de coeficientes de movimiento básicos que describen la trayectoria futura de cada píxel.
Luego, se utiliza un modelo de difusión para predecir "texturas de movimiento estocástico neuronal". El modelo solo genera coeficientes para una frecuencia a la vez, pero coordina estas predicciones en diferentes bandas de frecuencia.
La textura de espacio-frecuencia resultante se puede transformar en densas trayectorias de movimiento de píxeles de larga distancia que se pueden utilizar para sintetizar fotogramas futuros, convirtiendo imágenes estáticas en animaciones realistas.
Introducción a la tecnología
Basado en una sola imagen
El sistema construido por los investigadores consta de dos módulos: "módulo de predicción de acciones" y "módulo de renderizado basado en imágenes".
Primero, los investigadores utilizaron un "modelo de difusión latente" como imagen de entrada.
En el segundo paso, se utiliza la transformada discreta inversa de Fourier para convertir la textura de movimiento aleatorio predicha en una serie de campos de desplazamiento de movimiento.
Estos campos de desplazamiento de movimiento se utilizarán para determinar la posición de cada píxel de entrada en cada paso de tiempo futuro.
Con estos campos de movimiento predichos, el módulo de renderizado de los investigadores utiliza técnicas de renderizado basadas en imágenes para recoger características de codificación de las imágenes RGB de entrada y decodifica estas características seleccionadas en fotogramas de salida a través de una red de síntesis de imágenes.
Textura de movimiento aleatorio neuronal
textura de movimiento
En investigaciones anteriores, la textura de movimiento definió una serie de mapas de desplazamiento 2D que varían en el tiempo.
Para generar un marco futuro en el tiempo t, se puede utilizar el mapa de desplazamiento correspondiente, desde
Como se ha demostrado anteriormente en la investigación de gráficos por computadora, muchos movimientos naturales, especialmente los movimientos oscilatorios, pueden describirse como la superposición de un pequeño conjunto de osciladores armónicos, representados por diferentes frecuencias, amplitudes y fases.
Una forma de introducir aleatoriedad en el movimiento es integrar campos de ruido. Pero como han demostrado investigaciones anteriores, agregar ruido aleatorio directamente a los dominios espaciales y temporales de los campos de movimiento predichos a menudo resulta en animaciones poco realistas o inestables.
Además, utilizar la textura de movimiento en el dominio temporal definido anteriormente significa que es necesario predecir los campos de desplazamiento T 2D para generar un segmento de vídeo que contenga T fotogramas. Para evitar predecir una representación de salida tan grande, muchos métodos de animación anteriores generan fotogramas de vídeo de forma autorregresiva o predicen de forma independiente cada fotograma de salida futuro mediante una incrustación temporal adicional.
Sin embargo, ninguna de las estrategias garantiza que los fotogramas de vídeo generados sean temporalmente consistentes a largo plazo, y ambas pueden producir vídeos que se desvían o divergen con el tiempo.
Para resolver los problemas anteriores, los investigadores representan la textura de movimiento por píxel de la escena de entrada en el dominio de la frecuencia (es decir, las trayectorias de movimiento completas de todos los píxeles) y formulan el problema de predicción de movimiento como una conversión multimodal de imagen a imagen. tarea.
Los investigadores utilizaron un modelo de difusión latente (LDM) para generar una textura de movimiento aleatorio que consiste en un espectrograma de movimiento 2D de canal 4K, donde K << T es el número de frecuencias modeladas, y en cada frecuencia, los investigadores necesitaron cuatro escalares para representar la Coeficientes de Fourier complejos en las dimensiones x e y.
La siguiente imagen muestra estas texturas neuronales de movimiento aleatorio.
Para probar esta hipótesis, los investigadores calcularon el espectro de potencia promedio del movimiento extraído de 1.000 clips de vídeo reales de 5 segundos muestreados aleatoriamente. Como se muestra en la imagen de la izquierda a continuación, la potencia se concentra principalmente en los componentes de baja frecuencia.
En la práctica, los investigadores descubrieron que los primeros coeficientes de Fourier K = 16 eran suficientes para reproducir fielmente los movimientos naturales originales en una variedad de vídeos y escenas reales.
Utilice el modelo de difusión para predecir acciones.
Los investigadores eligieron el modelo de difusión latente (LDM) como núcleo del módulo de predicción de acciones de los investigadores porque el LDM es más eficiente desde el punto de vista computacional que el modelo de difusión del espacio de píxeles y, al mismo tiempo, mantiene la calidad de generación.
Un LDM estándar incluye principalmente dos módulos:
Un codificador automático variacional (VAE) comprime la imagen de entrada en el espacio latente a través del codificador z = E(I), y luego reconstruye la entrada a partir de las características latentes a través del decodificador I = D(z).
Un modelo de difusión basado en U-Net, que aprende a eliminar iterativamente características latentes a partir del ruido aleatorio gaussiano.
La capacitación de los investigadores no se aplicó a imágenes de entrada sino a texturas de acción aleatorias de secuencias de video reales, que se codificaron y luego difundieron n pasos en un programa de varianza predefinido para producir variables latentes ruidosas zn.
Normalización adaptativa de frecuencia
Los investigadores observaron un problema en el que las texturas de acción aleatoria tienen propiedades de distribución de frecuencia específicas. Como se muestra en el panel izquierdo de la imagen de arriba, la amplitud de la textura de movimiento de los investigadores varía de 0 a 100 y decae aproximadamente exponencialmente a medida que aumenta la frecuencia.
Dado que los modelos de difusión requieren valores de salida entre 0 y 1 para un entrenamiento y eliminación de ruido estables, los investigadores deben normalizar los coeficientes S extraídos de videos reales antes de entrenar con ellos.
Si los investigadores escalan la magnitud de los coeficientes S a [0,1] en función del ancho y alto de la imagen, entonces casi todos los coeficientes estarán cerca de cero en frecuencias más altas, como se muestra en la figura anterior (derecha).
Los modelos entrenados con dichos datos pueden producir acciones inexactas porque durante la inferencia, incluso pequeños errores de predicción pueden conducir a grandes errores relativos después de la desnormalización, cuando el S normalizado La magnitud del coeficiente es muy cercana a cero.
Para resolver este problema, los investigadores emplearon una técnica de normalización adaptativa de frecuencia simple pero efectiva. Específicamente, los investigadores primero normalizaron los coeficientes de Fourier en cada frecuencia de forma independiente basándose en estadísticas calculadas a partir del conjunto de entrenamiento.
Eliminación de ruido coordinada por frecuencia
Una forma sencilla de predecir una textura de acción aleatoria S con K bandas de frecuencia es generar un tensor con canales 4K desde una U-Net de difusión estándar.
Sin embargo, entrenar un modelo para producir una cantidad tan grande de canales a menudo produce resultados demasiado fluidos e inexactos.
Otro enfoque es predecir el espectrograma de acción en cada frecuencia individual de forma independiente inyectando incorporaciones de frecuencia adicionales en el LDM, pero esto conduce a predicciones irrelevantes en el dominio de la frecuencia y, por lo tanto, a acciones poco realistas.
Por lo tanto, los investigadores propusieron la estrategia de eliminación de ruido coordinada en frecuencia que se muestra en la siguiente figura. Específicamente, dada una imagen de entrada I0, primero entrenamos un LDM para predecir mapas de textura de acción aleatoria con cuatro canales para cada frecuencia individual, donde inyectamos incorporaciones de frecuencia adicionales en el LDM junto con incorporaciones de pasos de tiempo en la red.
Los investigadores describen además cómo renderizar un cuadro ˆIt en el tiempo futuro t utilizando una textura de movimiento aleatorio S predicha para una imagen de entrada determinada I0. Primero, los investigadores utilizaron FFT (Transformada Rápida de Fourier) en el dominio del tiempo inverso para calcular el campo de trayectoria de movimiento en cada punto de píxel p.
Entrenamos conjuntamente el extractor de características y la red de síntesis con cuadros de inicio y destino muestreados aleatoriamente de videos reales, donde usamos el campo de flujo estimado de I0 a It para deformar las características codificadas de I0 y usamos la pérdida de percepción VGG para predecir. Lleva a cabo la supervisión. .
Aplicaciones extendidas adicionales
Los investigadores demostraron además la aplicación de agregar efectos dinámicos a una sola imagen estática utilizando el proceso de animación y representación de movimiento propuesto por los investigadores.
Imagen a vídeo
El sistema de los investigadores anima una única imagen estática prediciendo primero una textura de movimiento aleatorio neuronal a partir de la imagen de entrada y aplicando el módulo de representación basado en imágenes de los investigadores a un campo de desplazamiento de movimiento derivado de la textura de movimiento aleatorio.
Debido a que modelamos explícitamente el movimiento de la escena, esto nos permitió generar videos en cámara lenta interpolando linealmente campos de desplazamiento de movimiento y acercando (o alejando) el movimiento animado ajustando la amplitud de los coeficientes de textura de movimiento aleatorio predichos.
Bucle sin interrupción
A veces resulta útil generar vídeos con un movimiento en bucle continuo, lo que significa que no hay discontinuidad en la apariencia o el movimiento entre el principio y el final del vídeo.
Desafortunadamente, es difícil encontrar un gran conjunto de capacitación con videos que se reproduzcan sin interrupciones. Por lo tanto, los investigadores idearon un método utilizando el modelo de difusión de movimiento de los investigadores, que se entrenó en clips de vídeo normales sin bucle, para producir vídeos en bucle sin interrupciones.
Inspirado en investigaciones recientes sobre edición guiada de imágenes, el enfoque de los investigadores es una técnica autoguiada de movimiento que utiliza restricciones de bucle explícitas para guiar el proceso de muestreo de eliminación de ruido del movimiento.
Específicamente, durante cada paso iterativo de eliminación de ruido de la fase de inferencia, los investigadores incluyeron una señal de guía de movimiento adicional junto con la guía estándar sin clasificador, donde forzamos a cada píxel a estar en las posiciones inicial y final del cuadro y las velocidades son lo más similares posible.
Genera animaciones interactivas a partir de una sola imagen
El espectro de movimiento espacial de la imagen en un vídeo observado de un objeto oscilante se aproxima a la base modal de vibración física del objeto.
Las formas modales capturan la dinámica oscilatoria de un objeto a diferentes frecuencias, por lo que se puede utilizar una proyección en el espacio de imagen de los patrones de vibración de un objeto para modelar la respuesta del objeto a una fuerza definida por el usuario, como un empujón o un tirón.
Por ello, los investigadores utilizaron una técnica de análisis modal previamente estudiada, que supone que el movimiento de un objeto puede explicarse mediante la superposición de un conjunto de resonadores.
Esto permite a los investigadores escribir el campo de desplazamiento de movimiento bidimensional del espacio de la imagen de la respuesta física del objeto como una suma ponderada de los coeficientes del espectro de Fourier y las coordenadas modales complejas de cada paso de tiempo de simulación t, y el tiempo t.
Evaluación experimental
El equipo de investigación realizó una comparación cuantitativa entre el método más reciente y el método básico en un conjunto de prueba de videoclips no vistos.
Se descubrió que el enfoque de Google superó significativamente las líneas base de animación de una sola imagen anteriores en calidad de síntesis de imagen y video.
Específicamente, las distancias FVD y DT-FVD de Google son mucho más bajas, lo que indica que los videos generados por este método son más realistas y temporalmente coherentes.
Debido a que Google emplea una representación de textura de movimiento estocástico global, su enfoque genera videos que son más consistentes en el tiempo y no se desvían ni se degradan con el tiempo.
Primero, se muestra el corte espaciotemporal Xt del video generado, como se muestra en la Figura 7.
La dinámica de los vídeos generados por Google es más similar a los patrones de movimiento observados en los vídeos de referencia reales correspondientes (segunda columna). Las líneas de base como I2V aleatoria y MCVD no pueden simular de manera realista la apariencia y el movimiento a lo largo del tiempo.
El método generado por Google genera cuadros que exhiben menos artefactos y distorsiones en comparación con otros métodos, y los campos de movimiento 2D correspondientes son más similares a los campos de desplazamiento de referencia estimados a partir de los videos reales correspondientes.
Sobre el Autor
Zhengqi Li
Recibió el premio CVPR 2019 Best Paper Honorable Award, la beca de doctorado de Google 2020, la beca de investigación Adobe 2020, el premio Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 y el premio CVPR 2023 Best Paper Honorary Award.
Referencias: