Veja, com um puxão suave, a rosa começa a se mover.
Arrastando as folhas para a esquerda, o pinheiro moveu-se na mesma direção.
Há também fotos de vários objetos no mundo, que podem ganhar vida em um instante.
Esta é a pesquisa mais recente da equipe do Google, transformando suas mãos em “dedos dourados mágicos” que podem controlar tudo e movê-lo com um toque.
Neste artigo, o Google propôs "Generative Image Dynamics", que modela o espaço da imagem antes e depois treina o modelo para prever a "textura de movimento neural aleatório".
Finalmente, foi implementado, e até mesmo um loop infinito de vídeo poderia ser gerado interagindo com uma única imagem.
No futuro, a imaginação dos artistas não estará mais limitada pelas estruturas tradicionais e tudo será possível neste espaço dinâmico de imagens.
Tudo na imagem ganha vida
O movimento de tudo no mundo é multimodal.
As roupas penduradas no quintal balançavam para frente e para trás com o vento.
As grandes lanternas vermelhas penduradas na rua balançavam no ar.
Tem também um gatinho dormindo ao lado da cortina, com a barriga respirando para cima e para baixo, de tão preguiçoso.
Esses movimentos geralmente não são previsíveis: as velas queimam de uma certa maneira, as árvores balançam ao vento, as folhas farfalham...
Pegando uma foto, os pesquisadores poderão imaginar como ela se moveu quando a foto foi tirada.
Dado o atual desenvolvimento de modelos generativos, especialmente modelos de difusão, é possível modelar distribuições altamente ricas e complexas.
Isso possibilita muitas aplicações que antes eram impossíveis, como a geração de imagens arbitrariamente realistas a partir de texto. Além de ser útil no campo da imagem, o modelo de difusão também pode ser utilizado para modelar o campo do vídeo.
A partir disso, a equipe do Google neste estudo modelou um prior generativo no movimento da cena no espaço da imagem, ou seja, o movimento de todos os pixels em uma única imagem.
O modelo é treinado com base em trajetórias de movimento extraídas automaticamente de um grande número de sequências de vídeo reais.
Condicionado na imagem de entrada, o modelo treinado prevê uma “textura de movimento neural estocástico”: um conjunto de coeficientes básicos de movimento que descrevem a trajetória futura de cada pixel.
Os pesquisadores do Google limitaram o escopo de seu estudo a cenas do mundo real com dinâmicas naturais de balanço, como árvores e flores sopradas pelo vento, então escolheram a série de Fourier como função base.
Em seguida, um modelo de difusão é usado para prever "texturas de movimento estocástico neural." O modelo gera coeficientes apenas para uma frequência de cada vez, mas coordena essas previsões em diferentes bandas de frequência.
A textura do espaço de frequência resultante pode ser convertida em trajetórias densas de movimento de pixels de longa distância, que podem ser usadas para sintetizar quadros futuros e transformar imagens estáticas em animações realistas.
A seguir, vamos dar uma olhada em como isso é implementado?
Introdução à tecnologia
Baseado em uma única imagem
, o objetivo do pesquisador é gerar um vídeo de duração T
, este vídeo pode mostrar árvores dinâmicas, flores ou chamas de velas balançando com a brisa.
O sistema construído pelos pesquisadores consiste em dois módulos: “módulo de previsão de ação” e “módulo de renderização baseado em imagem”.
Primeiro, os pesquisadores usaram um “modelo de difusão latente” como imagem de entrada
Prevendo uma textura de movimento neural estocástico
É a representação em frequência da trajetória de movimento de cada pixel na imagem de entrada.
Na segunda etapa, a transformada discreta inversa de Fourier é usada para converter a textura de movimento aleatório prevista em uma série de campos de deslocamento de movimento.
。
Esses campos de deslocamento de movimento serão usados para determinar a posição de cada pixel de entrada em cada passo de tempo futuro.
Com esses campos de movimento previstos, o módulo de renderização dos pesquisadores usa técnicas de renderização baseadas em imagem para capturar recursos de codificação das imagens RGB de entrada e decodifica esses recursos escolhidos em quadros de saída por meio de uma rede de síntese de imagem.
Textura de movimento aleatório neural
textura de movimento
Em pesquisas anteriores, a textura de movimento definiu uma série de mapas de deslocamento 2D que variam no tempo.
onde, cada coordenada de pixel p, da imagem de entrada
O vetor de deslocamento 2D define a posição do pixel no tempo futuro t.
Para gerar um quadro futuro no tempo t, o mapa de deslocamento correspondente pode ser usado, de
Escolha pixels de , resultando em uma imagem deformada para frente:
Textura de movimento aleatório
Como foi demonstrado anteriormente em pesquisas em computação gráfica, muitos movimentos naturais, especialmente movimentos oscilatórios, podem ser descritos como a superposição de um pequeno conjunto de osciladores harmônicos, representados por diferentes frequências, amplitudes e fases.
Uma maneira de introduzir aleatoriedade no movimento é integrar campos de ruído. Mas, como mostraram pesquisas anteriores, adicionar ruído aleatório diretamente aos domínios espaciais e temporais dos campos de movimento previstos geralmente resulta em animações irrealistas ou instáveis.
Além disso, usar a textura de movimento no domínio temporal definido acima significa que os campos de deslocamento T 2D precisam ser previstos para gerar um segmento de vídeo contendo quadros T. Para evitar a previsão de uma representação de saída tão grande, muitos métodos de animação anteriores geram quadros de vídeo de forma autorregressiva ou prevêem independentemente cada quadro de saída futuro por meio de incorporação temporal adicional.
No entanto, nenhuma das estratégias garante que os quadros de vídeo gerados sejam temporalmente consistentes no longo prazo, e ambas podem produzir vídeos que se desviam ou divergem ao longo do tempo.
Para resolver os problemas acima, os pesquisadores representam a textura de movimento por pixel da cena de entrada no domínio da frequência (ou seja, as trajetórias completas de movimento de todos os pixels) e formulam o problema de previsão de movimento como uma conversão multimodal de imagem para imagem. tarefa.
Os pesquisadores usaram um modelo de difusão latente (LDM) para gerar uma textura de movimento aleatório que consiste em um espectrograma de movimento 2D de canal 4K, onde K << T é o número de frequências modeladas e, em cada frequência, os pesquisadores precisaram de quatro escalares para representar o coeficientes de Fourier complexos nas dimensões x e y.
A imagem abaixo mostra essas texturas de movimento aleatório neural.
Então, como deve ser escolhida a frequência de saída K indicada pelos pesquisadores? Pesquisas anteriores sobre animação em tempo real mostraram que a maior parte do movimento oscilatório natural consiste principalmente em componentes de baixa frequência.
Para testar essa hipótese, os pesquisadores calcularam o espectro de potência médio do movimento extraído de 1.000 videoclipes reais de 5 segundos amostrados aleatoriamente. Conforme mostrado na imagem à esquerda abaixo, a potência está concentrada principalmente nos componentes de baixa frequência.
O espectro de frequência de uma ação diminui exponencialmente com o aumento da frequência. Isto mostra que a maioria das ações vibratórias naturais podem de fato ser bem representadas por termos de baixa frequência.
Na prática, os pesquisadores descobriram que os primeiros coeficientes de Fourier K = 16 eram suficientes para reproduzir fielmente os movimentos naturais originais em uma série de vídeos e cenas reais.
Use o modelo de difusão para prever ações
Os pesquisadores escolheram o modelo de difusão latente (LDM) como o núcleo do módulo de previsão de ação dos pesquisadores porque o LDM é mais eficiente computacionalmente do que o modelo de difusão no espaço de pixels, mantendo a qualidade da geração.
Um LDM padrão inclui principalmente dois módulos:
Um autoencoder variacional (VAE) comprime a imagem de entrada no espaço latente por meio do codificador z = E(I) e então reconstrói a entrada dos recursos latentes por meio do decodificador I = D(z).
Um modelo de difusão baseado em U-Net, que aprende a eliminar ruído iterativamente de características latentes a partir de ruído aleatório gaussiano.
O treinamento dos pesquisadores foi aplicado não a imagens de entrada, mas a texturas de ação aleatória de sequências de vídeo reais, que foram codificadas e depois difundidas em n etapas em um cronograma de variância predefinido para produzir variáveis latentes ruidosas zn.
Normalização adaptativa de frequência
Os pesquisadores observaram um problema em que texturas de ação aleatória têm propriedades específicas de distribuição de frequência. Conforme mostrado no painel esquerdo da imagem acima, a amplitude da textura de movimento dos pesquisadores varia de 0 a 100 e decai aproximadamente exponencialmente à medida que a frequência aumenta.
Como os modelos de difusão exigem valores de saída entre 0 e 1 para treinamento e remoção de ruído estáveis, os pesquisadores devem normalizar os coeficientes S extraídos de vídeos reais antes de treinar com eles.
Se os pesquisadores dimensionarem a magnitude dos coeficientes S para [0,1] com base na largura e altura da imagem, então quase todos os coeficientes estarão próximos de zero em frequências mais altas, conforme mostrado na figura acima (à direita).
Modelos treinados com esses dados podem produzir ações imprecisas porque durante a inferência, mesmo pequenos erros de previsão podem levar a grandes erros relativos após a desnormalização, quando o S normalizado A magnitude do coeficiente é muito próxima de zero.
Para resolver este problema, os pesquisadores empregaram uma técnica de normalização adaptativa de frequência simples, mas eficaz. Especificamente, os pesquisadores primeiro normalizaram os coeficientes de Fourier em cada frequência de forma independente, com base em estatísticas calculadas a partir do conjunto de treinamento.
Remoção de ruído coordenada por frequência
Uma maneira direta de prever uma textura de ação aleatória S com K bandas de frequência é produzir um tensor com canais 4K a partir de uma U-Net de difusão padrão.
No entanto, treinar um modelo para produzir um número tão grande de canais geralmente produz resultados excessivamente suaves e imprecisos.
Outra abordagem é prever o espectrograma de ação em cada frequência individual de forma independente, injetando incorporações de frequência adicionais no LDM, mas isso leva a previsões irrelevantes no domínio da frequência e, portanto, a ações irrealistas.
Portanto, os pesquisadores propuseram a estratégia de eliminação de ruído coordenada por frequência mostrada na figura abaixo. Especificamente, dada uma imagem de entrada I0, primeiro treinamos um LDM para prever mapas de textura de ação aleatória com quatro canais para cada frequência individual, onde injetamos incorporações de frequência adicionais no LDM juntamente com incorporações de intervalos de tempo na rede.
### Renderização baseada em imagem
Os pesquisadores descrevem ainda como renderizar um quadro ˆIt no tempo futuro t usando uma textura de movimento aleatório S prevista para uma determinada imagem de entrada I0. Primeiro, os pesquisadores usaram FFT (Fast Fourier Transform) no domínio do tempo inverso para calcular o campo de trajetória de movimento em cada ponto de pixel p
Esses campos de trajetória de movimento determinam a posição de cada pixel de entrada em cada passo de tempo futuro. Para gerar futuros quadros It, os pesquisadores empregam uma técnica de renderização baseada em imagem de profundidade e realizam warping para frente (splatting) usando o campo de movimento previsto para distorcer o I0 codificado, conforme mostrado na figura abaixo.
Como a deformação direta pode causar buracos na imagem e vários pixels de origem podem ser mapeados para a mesma posição 2D de saída, os pesquisadores adotaram a estratégia de deformação Softmax da pirâmide de recursos proposta anteriormente na pesquisa de interpolação de quadros.
Treinamos em conjunto o extrator de recursos e a rede de síntese com quadros iniciais e de destino amostrados aleatoriamente de vídeos reais, onde usamos o campo de fluxo estimado de I0 para It para distorcer os recursos codificados de I0 e usamos a perda perceptual VGG para prever ˆEle realiza supervisão .
Conforme mostrado acima, nosso recurso de deformação com reconhecimento de movimento produz um quadro sem furos ou artefatos em comparação com os métodos de deformação média direta e de deformação de profundidade de linha de base.
Aplicativos estendidos ainda mais
Os pesquisadores demonstraram ainda a aplicação da adição de efeitos dinâmicos a uma única imagem estática usando o processo de representação de movimento e animação proposto pelos pesquisadores.
Imagem para vídeo
O sistema dos pesquisadores anima uma única imagem estática, primeiro prevendo uma textura de movimento neural aleatório a partir da imagem de entrada e aplicando o módulo de renderização baseado em imagem dos pesquisadores a um campo de deslocamento de movimento derivado da textura de movimento aleatório.
Como modelamos explicitamente o movimento da cena, isso nos permitiu gerar vídeos em câmera lenta interpolando linearmente os campos de deslocamento de movimento e ampliando (ou diminuindo) o movimento animado ajustando a amplitude dos coeficientes de textura de movimento aleatório previstos.
Loop perfeito
Às vezes é útil gerar vídeos com movimento em loop contínuo, o que significa que não há descontinuidade na aparência ou no movimento entre o início e o fim do vídeo.
Infelizmente, é difícil encontrar um grande conjunto de treinamento de vídeos em loop contínuo. Portanto, os pesquisadores desenvolveram um método usando o modelo de difusão de movimento dos pesquisadores, que foi treinado em videoclipes regulares sem loop, para produzir vídeos em loop contínuo.
Inspirado em pesquisas recentes sobre edição guiada de imagens, a abordagem dos pesquisadores é uma técnica autoguiada de movimento que usa restrições de loop explícitas para orientar o processo de amostragem de remoção de ruído.
Especificamente, durante cada etapa iterativa de eliminação de ruído da fase de inferência, os pesquisadores incluíram um sinal de orientação de movimento adicional junto com a orientação livre de classificador padrão, onde forçamos cada pixel a estar nas posições inicial e final do quadro e as velocidades são tão semelhantes quanto possível.
Gere animações interativas a partir de uma única imagem
O espectro de movimento espacial da imagem em um vídeo observado de um objeto oscilante se aproxima da base modal da vibração física do objeto.
As formas modais capturam a dinâmica oscilatória de um objeto em diferentes frequências, portanto, uma projeção de imagem-espaço dos padrões de vibração de um objeto pode ser usada para modelar a resposta do objeto a uma força definida pelo usuário, como um puxão ou puxão.
Portanto, os pesquisadores utilizaram uma técnica de análise modal previamente estudada, que pressupõe que o movimento de um objeto pode ser explicado pela superposição de um conjunto de ressonadores.
Isso permite que os pesquisadores escrevam o campo de deslocamento de movimento bidimensional do espaço da imagem da resposta física do objeto como uma soma ponderada dos coeficientes do espectro de Fourier e das coordenadas modais complexas de cada passo de tempo de simulação t e do tempo t.
Avaliação Experimental
A equipe de pesquisa conduziu uma comparação quantitativa entre o método mais recente e o método de referência em um conjunto de testes de videoclipes inéditos.
Descobriu-se que a abordagem do Google superou significativamente as linhas de base anteriores de animação de imagem única em qualidade de síntese de imagem e vídeo.
Especificamente, as distâncias FVD e DT-FVD do Google são muito menores, indicando que os vídeos gerados por este método são mais realistas e temporalmente coerentes.
Além disso, a Figura 6 mostra as distâncias da janela deslizante FID e da janela deslizante DT-FVD dos vídeos gerados por diferentes métodos.
Como o Google emprega uma representação de textura de movimento estocástica global, sua abordagem gera vídeos que são mais consistentes ao longo do tempo e não se desviam nem se degradam com o tempo.
Além disso, a equipe do Google conduziu uma comparação qualitativa visual entre seu próprio método e os vídeos gerados pela linha de base de duas maneiras.
Primeiro, é mostrada a fatia espaçotemporal Xt do vídeo gerado, conforme mostrado na Figura 7.
A dinâmica dos vídeos gerados pelo Google é mais semelhante aos padrões de movimento observados nos vídeos de referência reais correspondentes (segunda coluna). Linhas de base como I2V aleatório e MCVD não podem simular de forma realista a aparência e o movimento ao longo do tempo.
Também prevemos imagens visualizando
e seu campo de deslocamento de movimento correspondente no tempo t = 128. Comparação qualitativa da qualidade de cada quadro gerado e movimento em diferentes métodos.
O método gerado pelo Google produz quadros que exibem menos artefatos e distorções em comparação com outros métodos, e os campos de movimento 2D correspondentes são mais semelhantes aos campos de deslocamento de referência estimados a partir dos vídeos reais correspondentes.
Estudo de ablação: Observa-se na Tabela 2 que todas as configurações mais simples ou alternativas resultam em pior desempenho em comparação ao modelo completo.
Sobre o autor
Zhengqi Li
Zhengqi Li é um cientista pesquisador do Google Research. Seus interesses de pesquisa incluem visão computacional 3D/4D, renderização baseada em imagens e fotografia computacional, especialmente em imagens e vídeos selvagens. Ele recebeu seu PhD em Ciência da Computação pela Cornell University, onde foi orientado por Noah Snavely.
Ele recebeu o prêmio de menção honrosa de melhor artigo CVPR 2019, a bolsa de estudos Google PhD de 2020, a bolsa de pesquisa Adobe 2020, o prêmio Baidu Global Artificial Intelligence Top 100 China Rising Star de 2021 e o prêmio honorário de melhor artigo CVPR 2023.
Referências:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Com um puxão e um puxão, a rosa ganha vida! Google propõe dinâmicas generativas de imagens e tudo estará vivo a partir de agora
Fonte original: Xinzhiyuan
Veja, com um puxão suave, a rosa começa a se mover.
Finalmente, foi implementado, e até mesmo um loop infinito de vídeo poderia ser gerado interagindo com uma única imagem.
No futuro, a imaginação dos artistas não estará mais limitada pelas estruturas tradicionais e tudo será possível neste espaço dinâmico de imagens.
Tudo na imagem ganha vida
O movimento de tudo no mundo é multimodal.
As roupas penduradas no quintal balançavam para frente e para trás com o vento.
Pegando uma foto, os pesquisadores poderão imaginar como ela se moveu quando a foto foi tirada.
Dado o atual desenvolvimento de modelos generativos, especialmente modelos de difusão, é possível modelar distribuições altamente ricas e complexas.
Isso possibilita muitas aplicações que antes eram impossíveis, como a geração de imagens arbitrariamente realistas a partir de texto. Além de ser útil no campo da imagem, o modelo de difusão também pode ser utilizado para modelar o campo do vídeo.
O modelo é treinado com base em trajetórias de movimento extraídas automaticamente de um grande número de sequências de vídeo reais.
Condicionado na imagem de entrada, o modelo treinado prevê uma “textura de movimento neural estocástico”: um conjunto de coeficientes básicos de movimento que descrevem a trajetória futura de cada pixel.
Em seguida, um modelo de difusão é usado para prever "texturas de movimento estocástico neural." O modelo gera coeficientes apenas para uma frequência de cada vez, mas coordena essas previsões em diferentes bandas de frequência.
A textura do espaço de frequência resultante pode ser convertida em trajetórias densas de movimento de pixels de longa distância, que podem ser usadas para sintetizar quadros futuros e transformar imagens estáticas em animações realistas.
Introdução à tecnologia
Baseado em uma única imagem
O sistema construído pelos pesquisadores consiste em dois módulos: “módulo de previsão de ação” e “módulo de renderização baseado em imagem”.
Primeiro, os pesquisadores usaram um “modelo de difusão latente” como imagem de entrada
Na segunda etapa, a transformada discreta inversa de Fourier é usada para converter a textura de movimento aleatório prevista em uma série de campos de deslocamento de movimento.
Esses campos de deslocamento de movimento serão usados para determinar a posição de cada pixel de entrada em cada passo de tempo futuro.
Com esses campos de movimento previstos, o módulo de renderização dos pesquisadores usa técnicas de renderização baseadas em imagem para capturar recursos de codificação das imagens RGB de entrada e decodifica esses recursos escolhidos em quadros de saída por meio de uma rede de síntese de imagem.
Textura de movimento aleatório neural
textura de movimento
Em pesquisas anteriores, a textura de movimento definiu uma série de mapas de deslocamento 2D que variam no tempo.
Para gerar um quadro futuro no tempo t, o mapa de deslocamento correspondente pode ser usado, de
Como foi demonstrado anteriormente em pesquisas em computação gráfica, muitos movimentos naturais, especialmente movimentos oscilatórios, podem ser descritos como a superposição de um pequeno conjunto de osciladores harmônicos, representados por diferentes frequências, amplitudes e fases.
Uma maneira de introduzir aleatoriedade no movimento é integrar campos de ruído. Mas, como mostraram pesquisas anteriores, adicionar ruído aleatório diretamente aos domínios espaciais e temporais dos campos de movimento previstos geralmente resulta em animações irrealistas ou instáveis.
Além disso, usar a textura de movimento no domínio temporal definido acima significa que os campos de deslocamento T 2D precisam ser previstos para gerar um segmento de vídeo contendo quadros T. Para evitar a previsão de uma representação de saída tão grande, muitos métodos de animação anteriores geram quadros de vídeo de forma autorregressiva ou prevêem independentemente cada quadro de saída futuro por meio de incorporação temporal adicional.
No entanto, nenhuma das estratégias garante que os quadros de vídeo gerados sejam temporalmente consistentes no longo prazo, e ambas podem produzir vídeos que se desviam ou divergem ao longo do tempo.
Para resolver os problemas acima, os pesquisadores representam a textura de movimento por pixel da cena de entrada no domínio da frequência (ou seja, as trajetórias completas de movimento de todos os pixels) e formulam o problema de previsão de movimento como uma conversão multimodal de imagem para imagem. tarefa.
Os pesquisadores usaram um modelo de difusão latente (LDM) para gerar uma textura de movimento aleatório que consiste em um espectrograma de movimento 2D de canal 4K, onde K << T é o número de frequências modeladas e, em cada frequência, os pesquisadores precisaram de quatro escalares para representar o coeficientes de Fourier complexos nas dimensões x e y.
A imagem abaixo mostra essas texturas de movimento aleatório neural.
Para testar essa hipótese, os pesquisadores calcularam o espectro de potência médio do movimento extraído de 1.000 videoclipes reais de 5 segundos amostrados aleatoriamente. Conforme mostrado na imagem à esquerda abaixo, a potência está concentrada principalmente nos componentes de baixa frequência.
Na prática, os pesquisadores descobriram que os primeiros coeficientes de Fourier K = 16 eram suficientes para reproduzir fielmente os movimentos naturais originais em uma série de vídeos e cenas reais.
Use o modelo de difusão para prever ações
Os pesquisadores escolheram o modelo de difusão latente (LDM) como o núcleo do módulo de previsão de ação dos pesquisadores porque o LDM é mais eficiente computacionalmente do que o modelo de difusão no espaço de pixels, mantendo a qualidade da geração.
Um LDM padrão inclui principalmente dois módulos:
Um autoencoder variacional (VAE) comprime a imagem de entrada no espaço latente por meio do codificador z = E(I) e então reconstrói a entrada dos recursos latentes por meio do decodificador I = D(z).
Um modelo de difusão baseado em U-Net, que aprende a eliminar ruído iterativamente de características latentes a partir de ruído aleatório gaussiano.
O treinamento dos pesquisadores foi aplicado não a imagens de entrada, mas a texturas de ação aleatória de sequências de vídeo reais, que foram codificadas e depois difundidas em n etapas em um cronograma de variância predefinido para produzir variáveis latentes ruidosas zn.
Normalização adaptativa de frequência
Os pesquisadores observaram um problema em que texturas de ação aleatória têm propriedades específicas de distribuição de frequência. Conforme mostrado no painel esquerdo da imagem acima, a amplitude da textura de movimento dos pesquisadores varia de 0 a 100 e decai aproximadamente exponencialmente à medida que a frequência aumenta.
Como os modelos de difusão exigem valores de saída entre 0 e 1 para treinamento e remoção de ruído estáveis, os pesquisadores devem normalizar os coeficientes S extraídos de vídeos reais antes de treinar com eles.
Se os pesquisadores dimensionarem a magnitude dos coeficientes S para [0,1] com base na largura e altura da imagem, então quase todos os coeficientes estarão próximos de zero em frequências mais altas, conforme mostrado na figura acima (à direita).
Modelos treinados com esses dados podem produzir ações imprecisas porque durante a inferência, mesmo pequenos erros de previsão podem levar a grandes erros relativos após a desnormalização, quando o S normalizado A magnitude do coeficiente é muito próxima de zero.
Para resolver este problema, os pesquisadores empregaram uma técnica de normalização adaptativa de frequência simples, mas eficaz. Especificamente, os pesquisadores primeiro normalizaram os coeficientes de Fourier em cada frequência de forma independente, com base em estatísticas calculadas a partir do conjunto de treinamento.
Remoção de ruído coordenada por frequência
Uma maneira direta de prever uma textura de ação aleatória S com K bandas de frequência é produzir um tensor com canais 4K a partir de uma U-Net de difusão padrão.
No entanto, treinar um modelo para produzir um número tão grande de canais geralmente produz resultados excessivamente suaves e imprecisos.
Outra abordagem é prever o espectrograma de ação em cada frequência individual de forma independente, injetando incorporações de frequência adicionais no LDM, mas isso leva a previsões irrelevantes no domínio da frequência e, portanto, a ações irrealistas.
Portanto, os pesquisadores propuseram a estratégia de eliminação de ruído coordenada por frequência mostrada na figura abaixo. Especificamente, dada uma imagem de entrada I0, primeiro treinamos um LDM para prever mapas de textura de ação aleatória com quatro canais para cada frequência individual, onde injetamos incorporações de frequência adicionais no LDM juntamente com incorporações de intervalos de tempo na rede.
Os pesquisadores descrevem ainda como renderizar um quadro ˆIt no tempo futuro t usando uma textura de movimento aleatório S prevista para uma determinada imagem de entrada I0. Primeiro, os pesquisadores usaram FFT (Fast Fourier Transform) no domínio do tempo inverso para calcular o campo de trajetória de movimento em cada ponto de pixel p
Treinamos em conjunto o extrator de recursos e a rede de síntese com quadros iniciais e de destino amostrados aleatoriamente de vídeos reais, onde usamos o campo de fluxo estimado de I0 para It para distorcer os recursos codificados de I0 e usamos a perda perceptual VGG para prever ˆEle realiza supervisão .
Aplicativos estendidos ainda mais
Os pesquisadores demonstraram ainda a aplicação da adição de efeitos dinâmicos a uma única imagem estática usando o processo de representação de movimento e animação proposto pelos pesquisadores.
Imagem para vídeo
O sistema dos pesquisadores anima uma única imagem estática, primeiro prevendo uma textura de movimento neural aleatório a partir da imagem de entrada e aplicando o módulo de renderização baseado em imagem dos pesquisadores a um campo de deslocamento de movimento derivado da textura de movimento aleatório.
Como modelamos explicitamente o movimento da cena, isso nos permitiu gerar vídeos em câmera lenta interpolando linearmente os campos de deslocamento de movimento e ampliando (ou diminuindo) o movimento animado ajustando a amplitude dos coeficientes de textura de movimento aleatório previstos.
Loop perfeito
Às vezes é útil gerar vídeos com movimento em loop contínuo, o que significa que não há descontinuidade na aparência ou no movimento entre o início e o fim do vídeo.
Infelizmente, é difícil encontrar um grande conjunto de treinamento de vídeos em loop contínuo. Portanto, os pesquisadores desenvolveram um método usando o modelo de difusão de movimento dos pesquisadores, que foi treinado em videoclipes regulares sem loop, para produzir vídeos em loop contínuo.
Inspirado em pesquisas recentes sobre edição guiada de imagens, a abordagem dos pesquisadores é uma técnica autoguiada de movimento que usa restrições de loop explícitas para orientar o processo de amostragem de remoção de ruído.
Especificamente, durante cada etapa iterativa de eliminação de ruído da fase de inferência, os pesquisadores incluíram um sinal de orientação de movimento adicional junto com a orientação livre de classificador padrão, onde forçamos cada pixel a estar nas posições inicial e final do quadro e as velocidades são tão semelhantes quanto possível.
Gere animações interativas a partir de uma única imagem
O espectro de movimento espacial da imagem em um vídeo observado de um objeto oscilante se aproxima da base modal da vibração física do objeto.
As formas modais capturam a dinâmica oscilatória de um objeto em diferentes frequências, portanto, uma projeção de imagem-espaço dos padrões de vibração de um objeto pode ser usada para modelar a resposta do objeto a uma força definida pelo usuário, como um puxão ou puxão.
Portanto, os pesquisadores utilizaram uma técnica de análise modal previamente estudada, que pressupõe que o movimento de um objeto pode ser explicado pela superposição de um conjunto de ressonadores.
Isso permite que os pesquisadores escrevam o campo de deslocamento de movimento bidimensional do espaço da imagem da resposta física do objeto como uma soma ponderada dos coeficientes do espectro de Fourier e das coordenadas modais complexas de cada passo de tempo de simulação t e do tempo t.
Avaliação Experimental
A equipe de pesquisa conduziu uma comparação quantitativa entre o método mais recente e o método de referência em um conjunto de testes de videoclipes inéditos.
Descobriu-se que a abordagem do Google superou significativamente as linhas de base anteriores de animação de imagem única em qualidade de síntese de imagem e vídeo.
Especificamente, as distâncias FVD e DT-FVD do Google são muito menores, indicando que os vídeos gerados por este método são mais realistas e temporalmente coerentes.
Como o Google emprega uma representação de textura de movimento estocástica global, sua abordagem gera vídeos que são mais consistentes ao longo do tempo e não se desviam nem se degradam com o tempo.
Primeiro, é mostrada a fatia espaçotemporal Xt do vídeo gerado, conforme mostrado na Figura 7.
A dinâmica dos vídeos gerados pelo Google é mais semelhante aos padrões de movimento observados nos vídeos de referência reais correspondentes (segunda coluna). Linhas de base como I2V aleatório e MCVD não podem simular de forma realista a aparência e o movimento ao longo do tempo.
O método gerado pelo Google produz quadros que exibem menos artefatos e distorções em comparação com outros métodos, e os campos de movimento 2D correspondentes são mais semelhantes aos campos de deslocamento de referência estimados a partir dos vídeos reais correspondentes.
Sobre o autor
Zhengqi Li
Ele recebeu o prêmio de menção honrosa de melhor artigo CVPR 2019, a bolsa de estudos Google PhD de 2020, a bolsa de pesquisa Adobe 2020, o prêmio Baidu Global Artificial Intelligence Top 100 China Rising Star de 2021 e o prêmio honorário de melhor artigo CVPR 2023.
Referências: