Zhengqi Li は、Google Research の研究員です。彼の研究対象には、3D/4D コンピュータ ビジョン、画像ベースのレンダリング、コンピュテーショナル フォトグラフィー、特に野生の画像やビデオが含まれます。彼はコーネル大学でコンピューター サイエンスの博士号を取得し、そこでノア スネーブリーの指導を受けました。
彼は、CVPR 2019 Best Paper Honorable Mention Award、2020 Google PhD Scholarship、2020 Adobe Research Fellowship、2021 Baidu Global Artificial Intelligence Top 100 China Rising Star Award、および CVPR 2023 Best Paper Honorary Award を受賞しています。
引っ張って引っ張ると、バラに命が吹き込まれます。 Google が提案する生成画像ダイナミクス、これからはすべてが生き生きとなります
出典: 新志源
ほら、優しく引っ張ると、バラが動き始めます。
最終的には実装され、単一の画像を操作することでビデオの無限ループを生成することもできました。
将来的には、アーティストの想像力は従来の枠組みに制限されなくなり、このダイナミックな画像空間であらゆることが可能になります。
写真の中のすべてが生き生きとしています
世界のあらゆるものの動きは多様です。
庭に吊るされた衣服が風で前後に揺れた。
研究者は、写真を手に取り、その写真が撮影されたときにそれがどのように動いたかを想像できるかもしれません。
生成モデル、特に拡散モデルの現在の開発を考慮すると、非常に豊富で複雑な分布をモデル化することが可能です。
これにより、テキストから任意にリアルな画像を生成するなど、これまで不可能だった多くのアプリケーションが可能になります。拡散モデルは画像分野で役立つだけでなく、ビデオ分野のモデル化にも使用できます。
モデルは、多数の実際のビデオ シーケンスから自動的に抽出されたモーション軌跡に基づいてトレーニングされます。
入力画像を条件として、トレーニングされたモデルは「神経確率的動きテクスチャ」、つまり各ピクセルの将来の軌道を記述する基本的な動き係数のセットを予測します。
次に、拡散モデルを使用して「ニューラル確率的モーション テクスチャ」を予測します。モデルは一度に 1 つの周波数の係数のみを生成しますが、これらの予測をさまざまな周波数帯域にわたって調整します。
結果として得られる周波数空間テクスチャは、高密度の長距離ピクセル運動軌跡に変換でき、これを使用して将来のフレームを合成し、静止画像をリアルなアニメーションに変換できます。
テクノロジーの紹介
単一のイメージに基づいて
研究者らが構築したシステムは、「行動予測モジュール」と「画像ベースレンダリングモジュール」の2つのモジュールで構成されている。
まず、研究者らは入力画像として「潜在拡散モデル」を使用しました。
2 番目のステップでは、逆離散フーリエ変換を使用して、予測されたランダム モーション テクスチャを一連のモーション ディスプレイスメント フィールドに変換します。
これらの動き変位フィールドは、将来の各タイム ステップでの各入力ピクセルの位置を決定するために使用されます。
これらの予測された動きフィールドを使用して、研究者のレンダリング モジュールは、画像ベースのレンダリング技術を使用して入力 RGB 画像からエンコード特徴を抽出し、これらの抽出された特徴を画像合成ネットワークを通じて出力フレームにデコードします。
ニューラル ランダム モーション テクスチャ
モーションテクスチャ
以前の研究では、モーション テクスチャは一連の時間変化する 2D 変位マップを定義していました。
時刻 t で将来のフレームを生成するには、対応するディスプレイスメント マップを次のように使用できます。
コンピューター グラフィックスの研究で以前に実証されているように、多くの自然な動き、特に振動運動は、さまざまな周波数、振幅、位相で表される少数の調和振動子の重ね合わせとして説明できます。
動きにランダム性を導入する 1 つの方法は、ノイズ フィールドを統合することです。しかし、これまでの研究で示されているように、予測されたモーション フィールドの空間領域および時間領域にランダム ノイズを直接追加すると、アニメーションが非現実的または不安定になることがよくあります。
さらに、上で定義した時間領域でモーション テクスチャを使用することは、T フレームを含むビデオ セグメントを生成するために T 個の 2D 変位フィールドを予測する必要があることを意味します。このような大規模な出力表現の予測を回避するために、以前のアニメーション手法の多くは、ビデオ フレームを自己回帰的に生成するか、追加の時間的埋め込みを通じて将来の各出力フレームを独立して予測していました。
ただし、どちらの戦略も、生成されたビデオ フレームが長期にわたって時間的に一貫していることを保証するものではなく、時間の経過とともに変動するビデオが生成される可能性があります。
上記の問題を解決するために、研究者は周波数領域で入力シーンのピクセルごとのモーション テクスチャ (つまり、すべてのピクセルの完全なモーション トラジェクトリ) を表し、マルチモーダルな画像から画像への変換として動き予測問題を定式化します。タスク。
研究者らは、潜在拡散モデル (LDM) を使用して、4K チャネル 2D モーション スペクトログラムで構成されるランダム モーション テクスチャを生成しました。ここで、K << T はモデル化された周波数の数であり、各周波数で、研究者は、 x 次元と y 次元の複素フーリエ係数。
下の画像は、これらのニューラル ランダム モーション テクスチャを示しています。
この仮説を検証するために、研究者らは、ランダムにサンプリングされた 5 秒間の実際のビデオ クリップ 1,000 個から抽出された動きの平均パワー スペクトルを計算しました。下の左の図に示すように、電力は主に低周波成分に集中します。
実際、研究者らは、最初の K = 16 のフーリエ係数で、さまざまな実際のビデオやシーンで元の自然な動きを忠実に再現するのに十分であることを発見しました。
拡散モデルを使用してアクションを予測する
研究者らは、生成品質を維持しながらピクセル空間拡散モデルよりも計算効率が高いため、研究者の行動予測モジュールの中核として潜在拡散モデル(LDM)を選択しました。
標準の LDM には主に 2 つのモジュールが含まれています。
変分オートエンコーダ (VAE) は、エンコーダ z = E(I) を通じて入力画像を潜在空間に圧縮し、デコーダ I = D(z) を通じて潜在特徴から入力を再構成します。
U-Net に基づく拡散モデル。ガウス ランダム ノイズから開始して潜在特徴を反復的にノイズ除去することを学習します。
研究者らのトレーニングは入力画像ではなく、実際のビデオシーケンスからのランダムアクションテクスチャに適用され、エンコードされた後、事前定義された分散スケジュールでnステップ拡散され、ノイズの多い潜在変数znが生成されました。
周波数適応正規化
研究者らは、ランダム アクション テクスチャが周波数において特定の分布特性を持つという問題を観察しました。上の画像の左側のパネルに示されているように、研究者のモーション テクスチャの振幅の範囲は 0 ~ 100 で、周波数が増加するにつれてほぼ指数関数的に減衰します。
拡散モデルは安定したトレーニングとノイズ除去のために 0 から 1 の間の出力値を必要とするため、研究者は実際のビデオでトレーニングする前に、実際のビデオから抽出された S 係数を正規化する必要があります。
研究者が画像の幅と高さに基づいて S 係数の大きさを [0,1] にスケールすると、上の図 (右) に示すように、高周波ではほとんどすべての係数が 0 に近くなります。
このようなデータでトレーニングされたモデルは、正規化された S 係数の大きさがゼロに非常に近い場合、推論中に小さな予測誤差でも非正規化後に大きな相対誤差を引き起こす可能性があるため、不正確なアクションを生成する可能性があります。
この問題を解決するために、研究者らはシンプルだが効果的な周波数適応正規化手法を採用しました。具体的には、研究者らはまず、トレーニングセットから計算された統計に基づいて、各周波数のフーリエ係数を独立して正規化しました。
周波数調整されたノイズ除去
K 周波数帯域でランダム アクション テクスチャ S を予測する簡単な方法は、標準拡散 U-Net から 4K チャネルでテンソルを出力することです。
ただし、このような多数のチャネルを生成するようにモデルをトレーニングすると、多くの場合、過度に滑らかで不正確な出力が生成されます。
もう 1 つのアプローチは、追加の周波数埋め込みを LDM に注入することによって、個々の周波数で独立してアクション スペクトログラムを予測することですが、これは周波数領域で無関係な予測を引き起こし、非現実的なアクションにつながります。
したがって、研究者らは、以下の図に示す周波数調整されたノイズ除去戦略を提案しました。具体的には、入力画像 I0 が与えられた場合、最初に個別の周波数ごとに 4 つのチャネルを持つランダム アクション テクスチャ マップを予測するように LDM をトレーニングし、ネットワーク内のタイム ステップ エンベディングとともに追加の周波数エンベディングを LDM に注入します。
研究者らはさらに、与えられた入力画像 I0 に対して予測されるランダム モーション テクスチャ S を使用して、将来の時間 t でフレーム ^It をレンダリングする方法について説明します。まず、研究者らは逆時間領域 FFT (高速フーリエ変換) を使用して、各ピクセル点 p での運動軌跡フィールドを計算しました。
実際のビデオからランダムにサンプリングされた開始フレームとターゲット フレームを使用して、特徴抽出器と合成ネットワークを共同でトレーニングします。そこで、I0 から It までの推定フロー フィールドを使用して、I0 のエンコードされた特徴をワープし、VGG 知覚損失を使用して予測を実行します。 。
さらに拡張されたアプリケーション
研究者らはさらに、研究者らが提案した動き表現とアニメーションプロセスを使用して、単一の静止画像に動的効果を追加するアプリケーションを実証しました。
画像からビデオへ
研究者のシステムは、最初に入力画像からニューラルランダムモーションテクスチャを予測し、研究者の画像ベースのレンダリングモジュールをランダムモーションテクスチャから導出されたモーション変位フィールドに適用することにより、単一の静止画像をアニメーション化します。
シーンのモーションを明示的にモデル化したため、モーション ディスプレイスメント フィールドを線形補間してスローモーション ビデオを生成し、予測されたランダム モーション テクスチャ係数の振幅を調整してアニメーション化されたモーションをズームイン (またはズームアウト) することができました。
シームレスなループ
場合によっては、シームレスなループ モーションを含むビデオを生成すると便利です。つまり、ビデオの最初と最後の間で外観や動作に不連続性がありません。
残念ながら、シームレスにループするビデオの大規模なトレーニング セットを見つけるのは困難です。したがって、研究者らは、通常の非ループビデオクリップでトレーニングされた研究者のモーション拡散モデルを使用して、シームレスにループするビデオを生成する方法を考案しました。
ガイド付き画像編集に関する最近の研究に触発された研究者のアプローチは、明示的なループ制約を使用してモーション ノイズ除去サンプリング プロセスをガイドするモーション セルフガイド技術です。
具体的には、推論フェーズの反復ノイズ除去の各ステップ中に、研究者らは標準の分類子なしのガイダンスと並行して追加のモーション ガイダンス信号を組み込み、各ピクセルを強制的に開始フレーム位置と終了フレーム位置に配置し、速度を可能な限り類似させました。
単一の画像からインタラクティブなアニメーションを生成
振動する物体の観察ビデオにおける画像空間運動スペクトルは、物体の物理的な振動モーダル基準に近似します。
モーダル シェイプは、さまざまな周波数でのオブジェクトの振動ダイナミクスをキャプチャするため、オブジェクトの振動パターンの画像空間投影を使用して、突いたり引っ張ったりするユーザー定義の力に対するオブジェクトの応答をモデル化できます。
そこで、研究者らは、物体の運動が一連の共振器の重ね合わせによって説明できると仮定する、以前に研究されたモーダル解析手法を使用した。
これにより、研究者は、物体の物理的応答の画像空間の 2 次元運動変位場を、各シミュレーション タイム ステップ t および時間 t のフーリエ スペクトル係数と複素モーダル座標の加重和として記述することができます。
実験評価
研究チームは、未公開のビデオクリップのテストセットに対して、最新の手法とベースラインの手法との定量的な比較を実施しました。
Google のアプローチは、画像とビデオの合成品質の両方において、以前の単一画像アニメーションのベースラインを大幅に上回っていることが判明しました。
具体的には、Google の FVD 距離と DT-FVD 距離ははるかに短く、この方法で生成されたビデオがより現実的で時間的に一貫していることを示しています。
Google はグローバルな確率的モーション テクスチャ表現を採用しているため、そのアプローチにより、時間の経過とともにより一貫性があり、時間の経過とともにドリフトしたり劣化したりしないビデオが生成されます。
まず、図 7 に示すように、生成されたビデオの Xt 時空間スライスが表示されます。
Google が生成したビデオのダイナミクスは、対応する実際のリファレンス ビデオ (2 番目の列) で観察された動きのパターンにより似ています。ランダム I2V や MCVD などのベースラインでは、時間の経過に伴う外観や動きを現実的にシミュレートできません。
Google が生成した方法では、他の方法と比較してアーティファクトや歪みが少ないフレームが生成され、対応する 2D モーション フィールドは、対応する実際のビデオから推定された基準変位フィールドに最も似ています。
## 著者について
リー・ジェンチー
彼は、CVPR 2019 Best Paper Honorable Mention Award、2020 Google PhD Scholarship、2020 Adobe Research Fellowship、2021 Baidu Global Artificial Intelligence Top 100 China Rising Star Award、および CVPR 2023 Best Paper Honorary Award を受賞しています。
参考文献: