最新開源 | 又快又好的擴散模型助力3D高斯場景補全

編輯：計算機視覺工坊

添加小助理：dddvision，備注：3D高斯，拉你入群。文末附行業細分群

掃描下方二維碼，加入3D視覺知識星球，星球内凝聚了衆多3D視覺實戰問題，以及各個子產品的學習資料：近20門視訊課程（星球成員免費學習）、最新頂會論文、計算機視覺書籍、優質3D視覺算法源碼等。想要入門3D視覺、做項目、搞科研，歡迎掃碼加入！

1、導讀

3D高斯潑濺最近已經成為新視角合成的一種高效表示方法。本工作研究了其編輯能力，特别是着重于補全任務，旨在為不完整的3D場景補充高斯，以實作視覺上更好的渲染效果。與2D圖像補全任務相比，補全3D高斯模型的關鍵是要确定新增點的相關高斯屬性，這些屬性的優化很大程度上受益于它們初始的3D位置。為此，我們提出使用一個圖像指導的深度補全模型來指導點的初始化，該模型基于2D圖像直接恢複深度圖。這樣的設計使我們的模型能夠以與原始深度對齊的比例填充深度值，并且利用大規模擴散模型的強大先驗。得益于更精确的深度補全，我們的方法，稱為InFusion，在各種複雜場景下以足夠更好的視覺保真度和效率（約快20倍）超越現有的替代方案。并且具有符合使用者指定紋理或插入新穎物體的補全能力。

(a) InFusion 能夠無縫删除 3D 對象，以使用者友好的方式進行紋理編輯和對象插入。

(b) InFusion 通過擴散先驗學習深度補全，顯着提高深度修複品質。

下面一起來閱讀一下這項工作~

2、論文資訊

标題：InFusion: Inpainting 3D Gaussians via Learning Depth Completion from Diffusion Prior

作者：Zhiheng Liu等人

機構機關: 中科大，港科大，螞蟻，阿裡巴巴

項目首頁位址: https://johanan528.github.io/Infusion/

Github倉庫: https://github.com/ali-vilab/infusion

3、背景

3D高斯作為新視角合成的一種重要方法，因能夠以驚人的渲染速度制作出具有真實感的圖像而受到重視。3D高斯提供了明确的表示能力和實時處理的可能性，大大提高了編輯3D場景的實用性。特别是對于虛拟現實（VR）和增強現實（AR）等互動式下遊應用，研究如何編輯3D高斯變得越來越重要。我們的研究關注于3D高斯的補全任務，這對于3d場景編輯至關重要，有效填補了确實部分，并為進一步的移動物體，增加新物體，改變紋理等編輯方式奠定基礎。現有方法對3D高斯補全的初步探索通常是使用對不同角度的渲染圖象進行圖像層次的補全，疊代的使用修複後的2D多視圖圖像作為新的訓練資料。但是，這種方法往往會因生成過程中的不一緻而産生模糊的紋理，且速度緩慢。值得注意的是，當初始點在3D場景中精确地定位時，高斯模型的訓練品質會顯著提高。是以一個實際的解決方案是将需要補全位置的高斯設定到正确的初始點，進而簡化整個訓練過程。是以，在為需補全高斯配置設定初始高斯點時，進行深度補全是關鍵的，将修複後的深度圖投影回3D場景能夠實作向3D空間的無縫過渡。

是以，我們引入了InFusion，一種創新的3D高斯補全方法，我們利用了預訓練擴散模型先驗，訓練了一個深度補全模型。我們的方法表明，Infusion可以準确确定初始點的位置，顯著提高了3D高斯圖像修複的保真度和效率。該模型在與未修複區域的對齊以及重構物體深度方面展現了顯著的優越性。這種增強的對齊能力確定了補全高斯和原3D場景的無縫合成。此外，為了應對涉及大面積遮擋的挑戰性場景， InFusion可以通過漸進的補全方式，展現了它解決此類複雜案例的能力。

4、方法

如上圖InFusion技術方案的核心是一個以輸入的RGB圖像為條件的深度補全模型。這個模型能夠根據觀測到的單視圖圖像來預測和修複缺失的深度資訊。它利用了預訓練的潛在擴散模型先驗，這些模型在大規模圖像資料集上進行訓練，進而具備了強大的生成能力和泛化性。

整體流程如下：

場景編輯初始化：首先，根據編輯需求和提供的掩碼，在訓練3d高斯場景的過程中，利用預先标記的掩碼，構造殘缺的高斯場景。
深度補全：總體來說，選擇一個參考視圖，并對該視角渲染得到的單張RGB圖像利用圖像修複模型如（Stable Diffusion XL Inpainting ）進行修複。再利用深度補全模型基于觀測圖像預測出缺失區域的深度資訊，生成補全後的深度圖。具體來說，深度補全模型接受三個輸入：從3D高斯渲染得到的深度圖、相應的修複後彩色圖像和一個掩碼，其中掩碼定義了需要補全的區域。先使用變分自編碼器（VAE）将深度圖和彩色圖像編碼到潛在空間中。其中通過将深度圖重複使其适合VAE的輸入要求，并應用線性歸一化，使得深度值主要位于[-1,1]區間内。後将編碼後的深度圖加噪得到的近高斯噪聲，将掩碼區域設定為0的編碼後的深度圖，編碼後的RGB指導圖像，以及掩碼圖像，在channel次元進行連接配接，輸入到U-Net網絡進行去噪，逐漸從噪聲中恢複出幹淨的深度潛在表示。再次通過VAE解碼得到補全後的深度圖。
3D點雲建構：使用補全後的深度圖和對應的彩色圖像，通過3D空間中的反投影操作，将2D圖像點轉換為3D點雲，這些點雲随後與原始的3D高斯體集合合并。
Gaussian模型優化：合并後的3D點雲通過進一步很少疊代次數的優化過程進行調整，以確定新補全的高斯體與原始場景在視覺上的一緻性和平滑過渡。

5、實驗結果

與過往方法對比，Infusion表現出保持 3D 連貫性的清晰紋理，而基線方法通常會産生模糊的紋理，尤其是複雜場景下。

在更具有挑戰性的場景下，包括具有多對象遮擋的場景，Infusion相比于其他方法也能夠産生令人滿意的效果

同時通過與廣泛使用的其他基線方法的比較，以及相應的點雲可視化。比較清楚地表明，我們的方法成功地能夠補出與現有幾何形狀對齊的正确形狀。

Infusion可以通過疊代的方式，對複雜的殘缺gaussian進行補全。

得益于Infusion補全3d高斯點的空間準确性，使用者可以修改補全區域的外觀和紋理。

通過編輯單個圖像，使用者可以将物體投影到真實的三維場景中。此過程将虛拟對象無縫內建到實體環境中，為場景定制提供直覺的工具。

7、結論

本文提出的方法InFusion，為3D高斯場景提供了高品質且高效的補全能力。此外，我們證明了結合擴散先驗能夠顯著增強了我們的深度圖像修複模型。這個改進的深度補全模型對于各種3D應用，特别是在新視角合成領域有着很大的應用前景。我們的方法為潛在擴散模型（LDM）與3D場景編輯之間建立了聯系。這種協同作用對于未來的進一步發展和優化具有重大潛力。

本文僅做學術分享，如有侵權，請聯系删文。

計算機視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺學習知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。

最新開源 | 又快又好的擴散模型助力3D高斯場景補全

繼續閱讀

零一萬物千億參數模型Yi-Large釋出，新MoE模型對打GPT-5

GPT搜尋引擎原型曝光！新模型GPT4-Lite驅動，代碼已上傳

大神Karpathy強推,分詞領域必讀:自動釣魚讓大模型"發瘋"的token

vivo首款“相機”X100 Ultra！算法100%自研，首發自研AI多模态大模型

國産110寸Mini AI-LED電視釋出，内置AI ERA人感大模型，27999元起

清華團隊研發腦啟發AI模型，為感覺資訊處理提供全新範例

微軟秘密開發首個千億大模型，竟由 OpenAI 對手操刀！

從基座模型到行業應用：洞察大模型落地的技術實踐與核心挑戰

YEF2024大會論壇——大模型與國産算力

世界模型之路在何方？| YEF2024

多模态AI是醫學的未來，谷歌三個新模型，Med-Gemini迎來大更新

《慶餘年2》預約突破1,300萬，張若昀、李沁大婚之日再造名場景

又一批國産醫療大模型“上新”：涉及影像質控、臨床診斷、中醫藥、醫療急救......

康佳釋出天鏡Mini AI-LED電視旗艦新品，搭載AI ERA人感大模型

漫步鍊上定價模型與 ERC7527

從場景體驗切入産品功能，脈動如何與這屆年輕人交心？