本物感がすごい Googleとコーネルが実画像補完技術 RealFill を提案

見栄えの良い写真を撮影するのがますます簡単になりました。

休日に旅行に行くなら、写真撮影は欠かせません。しかし、景勝地で撮った写真のほとんどは、背景に何か余分なものがあるか、何かが欠けているかのどちらかで、多かれ少なかれ残念な写真になります。

画像ソース: Unbounded AI によって生成

「完璧な」画像を取得することは、CV 研究者の長期的な目標の 1 つです。最近、Google Research とコーネル大学の研究者が協力して、「本物の画像補完」テクノロジー、つまり画像補完のための生成モデルである RealFill を提案しました。

RealFill モデルの利点は、ターゲット イメージと位置を合わせる必要がなく、視野角、照明条件、カメラの絞り、またはイメージ スタイルに関して大幅に変化する可能性がある少数のシーン参照イメージを使用してカスタマイズできることです。 。パーソナライゼーションが完了すると、RealFill は、元のシーンに忠実な方法で、視覚的に魅力的なコンテンツでターゲット画像を補完できます。

* 論文リンク: ※プロジェクトページ:

インペイント モデルとアウトペイント モデルは、画像の未知の領域に高品質で合理的な画像コンテンツを生成できるテクノロジですが、これらのモデルは実際のシーンのコンテキストで動作するため、これらのモデルによって生成されるコンテンツは必然的に非現実的になります。 。対照的に、RealFill はそこに「あるべき」コンテンツを生成し、画像補完の結果をより現実的にします。

著者らは論文の中で、新しい画像補完問題「本物の画像補完」を定義したと指摘した。従来の生成画像復元 (欠落領域を置き換えるコンテンツは元のシーンと一致しない可能性がある) とは異なり、実画像完成の目標は、「表示されるべきコンテンツ」を使用して、完成したコンテンツを元のシーンに可能な限り忠実に作成することです。 「そこにあるかもしれない」コンテンツでターゲット画像を完成させます。

著者らは、RealFill は、プロセスにさらに条件を追加する (つまり、参照画像を追加する) ことによって、生成画像修復モデルの表現力を拡張する最初の方法であると述べています。

RealFill は、多様で困難な一連のシナリオをカバーする新しい画像補完ベンチマークで、既存の方法を大幅に上回ります。

方法

RealFill の目標は、少数の参照イメージを使用して、可能な限り信頼性を維持しながら、特定のターゲット イメージの欠落部分を補完することです。具体的には、最大 5 つの参照画像と、同じシーンを大まかにキャプチャしたターゲット画像 (ただし、レイアウトや外観が異なる場合があります) が与えられます。

研究者らは、特定のシーンについて、まず、リファレンス画像とターゲット画像で事前トレーニングされた修復拡散モデルを微調整することで、パーソナライズされた生成モデルを作成しました。この微調整プロセスは、微調整モデルが良好な画像事前分布を維持するだけでなく、入力画像内のシーンの内容、照明、およびスタイルも学習するように設計されています。次に、この微調整されたモデルを使用して、標準の拡散サンプリング プロセスを通じてターゲット イメージ内の欠落領域を埋めます。

実際の応用価値を考慮して、このモデルは、ターゲット画像と参照画像の視点、環境条件、カメラの絞り、画像スタイル、さらには動きさえも大きく異なる可能性がある、より困難で制約のないケースに特に焦点を当てていることに注目してください。 。

実験結果

左側の参照イメージに基づいて、RealFill は右側のターゲット イメージを拡大 (アンクロップ) または修復 (修復) できます。生成された結果は、視覚的に魅力的であるだけでなく、参照イメージと一貫性があります。ターゲット画像は同じ視点にありますが、絞り、照明、画像スタイル、オブジェクトの動きには大きな違いがあります。

RealFill モデルの出力エフェクト。左側に参照イメージがあると、RealFill は右側の対応するターゲット イメージを拡張できます。ホワイト ボックスの内側の領域は既知のピクセルとしてネットワークに提供され、ホワイト ボックスの外側の領域は生成されます。結果は、視点、絞り、照明、画像スタイル、オブジェクトの動きなど、参照画像とターゲット画像の間に大きな違いがある場合でも、RealFill が参照画像に忠実な高品質の画像を生成できることを示しています。出典: 論文

対照実験

研究者らは、RealFill モデルを他のベースライン手法と比較しました。比較すると、RealFill は高品質の結果を生成し、シーンの忠実性と参照イメージとの一貫性の点で優れたパフォーマンスを発揮します。

ペイントバイサンプルは、高レベルのセマンティック情報しかキャプチャできない CLIP 埋め込みに依存しているため、高いシーン忠実度を実現できません。

安定拡散修復は一見妥当な結果を生成できますが、表現力が限られているため、最終的に生成された結果は参照イメージと一致しません。

RealFill と他の 2 つのベースライン メソッドとの比較。透明な白いマスクで覆われた領域は、ターゲット イメージの未変更の部分です。ソース: realfill.github.io

制限事項

研究者らはまた、処理速度、視点の変更を処理する能力、基礎となるモデルにとって困難な状況を処理する能力など、RealFill モデルの潜在的な問題と制限についても議論しました。具体的には:

RealFill は入力イメージに対してグラデーションベースの微調整プロセスを必要とするため、実行が比較的遅くなります。

参照イメージとターゲット イメージ間の視点の変更が非常に大きい場合、特に参照イメージが 1 つしかない場合、RealFill は 3D シーンを復元できないことがよくあります。

RealFill は主に、事前トレーニング済みベース モデルから継承した画像事前分布に依存しているため、テキストを適切に処理できない安定した拡散モデルなど、ベース モデルにとって困難な状況には対処できません。

最後に、著者は協力者に感謝の意を表します。

Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin、および貴重なディスカッションとフィードバックを提供してくれた Jon Barron に感謝します。また、評価データセットに貢献してくれた Zeya Peng、Rundi Wu、および Shan Nan にも感謝します。このプロジェクトに関するフィードバックとサポートをいただいた Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern、Nicole Brichtova に特に感謝します。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)