真實性驚人,Google、康乃爾提出真實的影像補全技術RealFill

得到一張好看的照片越來越容易了。

假期出遊,肯定少不了拍照留念。不過,大部分在景觀拍攝的照片或多或少都有些遺憾,背景裡不是多了些什麼,就是少了些什麼。

圖片來源:由無界AI 生成

獲得一張「完美」的圖像,是CV 研究人員長期以來努力的目標之一。日前,Google Research 和康乃爾大學的研究人員合作,提出了一種「真實的影像補全」(Authentic Image Completion)技術-用於影像補全的生成模型RealFill。

RealFill 模型的優點是可以使用少量的場景參考影像進行個人化設置,而這些參考影像無須與目標影像對齊,甚至可以在視角、光線條件、相機光圈或影像風格等方面有極大的差異。一旦完成個人化設置,RealFill 就能夠以忠實於原始場景的方式,用視覺上引人入勝的內容來補全目標影像。

* 論文連結:

  • 專案頁面:

補畫(inpainting)和擴畫(outpainting)模型是能夠在圖像的未知區域生成高品質、合理的圖像內容的技術,但這些模型生成的內容必然是不真實的,因為這些模型在真實場景的上下文資訊方面有不足。相較之下,RealFill 能夠產生「應該」出現在那裡的內容,從而使影像補全的結果更為真實。

作者在論文中指出,他們定義了一個新的影像補全問題-「真實影像補全」(Authentic Image Completion)。不同於傳統的生成型影像修復(替代缺失區域的內容可能與原始場景不一致),真實影像補全的目標是使補全的內容盡可能忠實於原始場景,用「應該出現在那裡」的內容來補全目標影像,而不是用「可能在那裡」的內容。

作者表示,RealFill 是第一個透過在過程中添加更多的條件(即添加參考圖像)來擴展生成型圖像修復模型表達力的方法。

在一個涵蓋了一系列多樣化且具有挑戰性的場景的新的影像補全基準測試中,RealFill 的表現大大超過了現有的方法。

方法

RealFill 的目標是在盡可能保持真實性的前提下,使用少量的參考影像來補全給定目標影像的缺失部分。具體來說,給定最多5 張參考影像,和一張大致捕捉到相同場景(但佈局或外觀可能不同)的目標影像。

對於給定的場景,研究人員首先透過在參考影像和目標影像上微調一個預先訓練的inpainting 擴散模型,創建一個個人化的生成模型。這個微調過程被設計成讓微調後的模型不僅保持良好的影像先驗,還能學習輸入影像中的場景內容、光線和風格。然後,使用這個微調過的模型,透過標準的擴散採樣過程來填充目標影像中的缺失區域。

值得注意的是,為了實際的應用價值,模型特別關注更具挑戰性、無約束的情況,即目標影像和參考影像可能有非常不同的視點、環境條件、相機光圈、影像風格,甚至包括移動的對象。

實驗結果

根據左側的參考影像,RealFill 能夠對右側的目標影像進行擴展(uncrop)或修復(inpaint),產生的結果不僅視覺上吸引人,而且與參考影像保持一致,即使參考影像和目標影像在視點、光圈、光線、影像風格和物體運動等方面有較大差異。

RealFill 模型的輸出效果。給定左側的參考影像,RealFill 能夠擴充對應的右側目標影像。白色框內的區域被提供給網路作為已知的像素,而白色框外的區域都是產生的。結果顯示,即使參考影像和目標影像之間存在包括視點、光圈、光照、影像風格和物體運動等巨大差異,RealFill 也能產生高品質且忠實於參考影像的影像。來源:論文

對照實驗

研究人員比較了RealFill 模型和其他的基準方法。相較之下,RealFill 產生的結果品質高,在場景保真度和與參考影像的一致性方面,RealFill的表現較好。

Paint-by-Example 無法實現高度的場景保真,因為它依賴CLIP 嵌入,而CLIP 嵌入只能捕獲高級語義資訊。

Stable Diffusion Inpainting 雖然可以產生看似合理的結果,但由於的表達能力有限,所以最終生成結果與參考圖像並不一致。

RealFill 與其他兩種基準方法的比較。覆蓋了一層透明白色遮罩的區域是目標影像未修改的部分。資料來源:realfill.github.io

限制

研究人員也討論了RealFill 模型的一些潛在的問題和限制,包括處理速度、對視點變化的處理能力,以及對基礎模型具有挑戰性的情況的處理能力。具體來說:

RealFill 需要對輸入影像進行基於梯度的微調過程,這使得它的運行速度相對較慢。

當參考影像和目標影像之間的視點變化非常大時,RealFill 往往無法恢復3D 場景,特別是當只有一張參考影像的時候。

由於RealFill 主要依賴從基礎的預訓練模型繼承的圖像先驗,因此它無法處理那些對基礎模型來說具有挑戰性的情況,例如stable diffusion 模型無法處理好文字。

最後,作者對合作者表示了感謝:

我們要感謝Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin 和Jon Barron 的寶貴討論與回饋,同時也感謝Zeya Peng、Rundi Wu、Shan Nan 對評估資料集的貢獻。我們特別感謝Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern 和Nicole Brichtova 對專案的回饋和支持。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)