一文了解可通過文本提示編輯3D 場景的AI 模型DreamEditor

撰文:Ekrem Chetinkaya

來源:MarkTechpost

圖片來源:由無界AI工俱生成

近年來,3D 計算機視覺領域充斥著NeRF 技術。作為該領域的一項突破,NeRF 能夠重建並合成場景的新穎視圖。它可以從多視圖圖像集合中捕獲底層幾何和外觀信息並對其進行建模。

通過神經網絡,NeRF 提供了一種超越傳統的數據驅動方法。 NeRF 中的神經網絡學會了表示場景幾何、照明和視線相關的外觀之間的複雜關係,可以實現高度詳細和真實的場景重建。 NeRF 的關鍵優勢在於它們能夠從場景中的任何所需視角生成逼真的圖像,甚至原始圖像集未捕捉到的區域也是如此。

NeRF 的成功為計算機圖形學、虛擬現實和增強現實提供了新的可能性,使人們能夠創造出與現實世界場景非常相似的沉浸式和互動式虛擬環境。因此,人們對進一步推進NeRF 領域非常感興趣。

但NeRF 的一些缺點也限制了它們在現實世界場景中的應用。例如,由於高維神經網絡特徵中形狀和紋理信息的隱性編碼,編輯神經場是一項重大挑戰。雖然有些方法試圖用探索性的編輯技術來解決這個問題,但它們往往需要大量的用戶輸入,並且很難實現精確且高質量的結果。

編輯NeRF 的能力可以為現實世界的應用打開可能性。然而,到目前為止,所有的嘗試都不足以解決這些問題。但現在,該領域中出現了一個新的遊戲參與者——DreamEditor。

DreamEditor 允許編輯3D NeRF。資料來源:

DreamEditor 是一個用戶友好的框架,允許使用文本提示對神經場進行直觀便捷的修改。通過使用基於網格的神經場表示場景,並採用分步編輯框架,DreamEditor 可以實現多種的編輯效果,包括重新貼圖、對象替換和對象插入。

網格表示法通過將2D 編輯蒙版轉換為3D 編輯區域來促進精確的本地編輯,同時也將幾何體和紋理分離開來,以防止過度變形。分步式框架將預訓練的擴散模型與SDS(score distillation sampling)相結合,允許根據簡單的文本提示進行高效、準確的編輯。

DreamEditor 遵循三個關鍵階段,以促進直觀和精確的文本引導的3D 場景編輯。在初始階段,原始神經輻射場被轉化為基於網格的神經場。這種網格表示法可以實現空間選擇性編輯。在轉換之後,它將採用定制的文本- 圖像(T2I)模型(該模型是在特定場景上訓練出來的),以捕捉文本提示中的關鍵詞和場景的視覺內容之間的語義關係。最後,使用T2I 擴散模式將編輯好的修改應用於神經場內的目標對象。

DreamEditor 可以準確地、逐步地編輯3D 場景,同時保持高水平的保真度和真實感。這種循序漸進的方法,從基於網格的表示到精確的定位和通過擴散模式的控制編輯,使得DreamEditor 能夠實現高度逼真的編輯效果,同時最大限度地減少在不相關區域的不必要的修改。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)