天天看點

一文了解可通過文本提示編輯 3D 場景的 AI 模型 DreamEditor

作者:巴比特8BTC

撰文:Ekrem Çetinkaya

來源:MarkTechpost

一文了解可通過文本提示編輯 3D 場景的 AI 模型 DreamEditor

圖檔來源:由無界 AI工具生成

近年來,3D 計算機視覺領域充斥着 NeRF 技術。作為該領域的一項突破,NeRF 能夠重建并合成場景的新穎視圖。它可以從多視圖圖像集合中捕獲底層幾何和外觀資訊并對其進行模組化。

通過神經網絡,NeRF 提供了一種超越傳統的資料驅動方法。NeRF 中的神經網絡學會了表示場景幾何、照明和視線相關的外觀之間的複雜關系,可以實作高度詳細和真實的場景重建。NeRF 的關鍵優勢在于它們能夠從場景中的任何所需視角生成逼真的圖像,甚至原始圖像集未捕捉到的區域也是如此。

NeRF 的成功為計算機圖形學、虛拟現實和增強現實提供了新的可能性,使人們能夠創造出與現實世界場景非常相似的沉浸式和互動式虛拟環境。是以,人們對進一步推進 NeRF 領域非常感興趣。

但 NeRF 的一些缺點也限制了它們在現實世界場景中的應用。例如,由于高維神經網絡特征中形狀和紋理資訊的隐性編碼,編輯神經場是一項重大挑戰。雖然有些方法試圖用探索性的編輯技術來解決這個問題,但它們往往需要大量的使用者輸入,并且很難實作精确且高品質的結果。

編輯 NeRF 的能力可以為現實世界的應用打開可能性。然而,到目前為止,所有的嘗試都不足以解決這些問題。但現在,該領域中出現了一個新的遊戲參與者——DreamEditor。

一文了解可通過文本提示編輯 3D 場景的 AI 模型 DreamEditor

DreamEditor 允許編輯 3D NeRF。資料來源:https://arxiv.org/pdf/2306.13455.pdf

DreamEditor 是一個使用者友好的架構,允許使用文本提示對神經場進行直覺便捷的修改。通過使用基于網格的神經場表示場景,并采用分步編輯架構,DreamEditor 可以實作多種的編輯效果,包括重新貼圖、對象替換和對象插入。

網格表示法通過将 2D 編輯蒙版轉換為 3D 編輯區域來促進精确的本地編輯,同時也将幾何體和紋理分離開來,以防止過度變形。分步式架構将預訓練的擴散模型與 SDS(score distillation sampling)相結合,允許根據簡單的文本提示進行高效、準确的編輯。

一文了解可通過文本提示編輯 3D 場景的 AI 模型 DreamEditor

DreamEditor 遵循三個關鍵階段,以促進直覺和精确的文本引導的 3D 場景編輯。在初始階段,原始神經輻射場被轉化為基于網格的神經場。這種網格表示法可以實作空間選擇性編輯。在轉換之後,它将采用定制的文本 - 圖像(T2I)模型(該模型是在特定場景上訓練出來的),以捕捉文本提示中的關鍵詞和場景的視覺内容之間的語義關系。最後,使用 T2I 擴散模式将編輯好的修改應用于神經場内的目标對象。

DreamEditor 可以準确地、逐漸地編輯 3D 場景,同時保持高水準的保真度和真實感。這種循序漸進的方法,從基于網格的表示到精确的定位和通過擴散模式的控制編輯,使得 DreamEditor 能夠實作高度逼真的編輯效果,同時最大限度地減少在不相關區域的不必要的修改。

繼續閱讀