超越GaussianEditor | GScream：利用3D高斯高效、高品質物體移除

作者：Yuxin Wan |編輯：3DCV

添加微信：cv3d008，備注：方向+機關+昵稱，拉你入群。文末附行業細分群

超越GaussianEditor | GScream：利用3D高斯高效、高品質物體移除

這篇文章介紹了一種名為GScream的新方法，用于從3D場景中去除指定對象。該方法基于3D高斯濺射(3DGS)表示，通過引入單目深度估計來增強幾何一緻性，并采用一種新穎的特征傳播機制來提高紋理一緻性。實驗證明，該方法不僅提高了去除物體後新視角合成的品質，也顯著提高了訓練和渲染的速度。與傳統的基于NeRF的方法相比，GScream表現出了效率和效果的顯著提升。

标題：Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal

作者：Yuxin Wang等人

機關：HKUST等機關

論文：https://arxiv.org/pdf/2404.13679.pdf

GScream方法的主要貢獻包括以下幾點：

3D Gaussian Splatting應用：首次将3D高斯濺射應用于物體移除任務，并提出了一種高效且品質較高的物體移除方法。
深度監督：引入單目深度估計作為額外幾何限制，提高了3D高斯濺射的幾何精度，進而提高了移除區域的幾何一緻性。
交叉注意力特征正則化：提出了一種交叉注意力機制，用于在可見區域和移除區域之間進行資訊交換，增強了移除區域的紋理一緻性。
輕量級模型：采用了一種輕量級的高斯濺射模型Scaffold-GS作為基礎模型，提高了訓練和渲染效率。

GScream

根據論文研究，GScream是一個利用3D高斯濺射(3DGS)進行目标移除的架構。該架構包括兩個關鍵元件：

單目深度引導訓練：通過引入單目深度估計作為額外的幾何限制，來優化高斯濺射的位置，提高幾何一緻性。線上深度對齊和監督子產品利用估計的深度圖進行監督。
交叉注意力特征正則化：在可見區域和移除區域的3D高斯簇之間傳播資訊，以提高移除區域的紋理一緻性。這包括3D高斯采樣和雙向交叉注意力子產品。

這兩個元件共同作用，提高移除區域的幾何和紋理一緻性，進而實作高品質的移除效果。GScream架構利用了3DGS的高效表示，使得訓練和渲染速度得到提升。

4.1、單目深度引導訓練

具體步驟如下：

首先，使用單目深度估計模型從多視圖圖像中提取每個圖像的深度圖。其中，對應參考視圖的深度圖。
然後，提出了一種線上深度對齊和監督的設計，以利用深度引導。具體來說，使用以下權重深度損失：

其中，M'代表不同視圖的權重。其中，w和q是用于線上對齊的尺度和平移參數，通過解決最小二乘問題得到。

除此之外，還采用了以下損失函數：

最後，使用多視圖顔色重建損失來限制渲染圖像與真實圖像的相似度：

通過引入單目深度估計作為額外的幾何限制，并采用線上深度對齊和監督的設計，可以顯著提高3DGS的幾何一緻性，進而為後續的紋理傳播提供更準确的幾何基礎。

4.2、交叉注意力特征正則化

3D Gaussian Sampling：首先，針對每個視角i，作者對包含移除區域和周圍區域的3D高斯簇進行采樣。具體方法是根據2D掩膜邊界投影3D高斯質心到目前視角，并找出落在采樣2D patch内的3D高斯簇。這些3D高斯簇可以根據其2D投影是否在2D掩膜内分為移除區域和周圍區域兩組。作者的目标是采樣移除區域和周圍區域的3D點。

Bidirectional Cross-Attention：接着，作者對兩組3D高斯特征進行雙向交叉注意力，以在它們之間傳播資訊。具體方法是将兩組特征拼接成兩個tokens，并輸入到一個雙向交叉注意力結構中。該結構包含共享參數的交叉注意力子產品，可以雙向傳播資訊。輸出的更新特征被配置設定回對應的3D高斯簇。

通過這種雙向交叉注意力設計，作者可以增強移除區域和周圍區域的特征一緻性，提高渲染結果的紋理連貫性。作者利用3D高斯表示的顯式性，通過特征傳播改進移除區域的紋理品質。

實驗設定：作者在SPIn-NeRF和IBRNet兩個資料集上進行物體移除實驗。其中，SPIn-NeRF資料集包含10個場景，每個場景100張多視角圖像以及前景物體掩膜；IBRNet資料集包含5個真實手機拍攝場景。此外，作者使用了3個最新方法的基線進行比較，包括SPIn-NeRF、OR-NeRF和View-Sub。對于評價名額，作者計算了PSNR、SSIM、LPIPS、FID等名額，并記錄了訓練時間，以評估方法的效率。

與最新方法的比較：作者通過定量和定性比較展示了方法與最新基線的比較結果。定量結果顯示，作者的方法在PSNR、SSIM、LPIPS、FID等名額上優于或持平SPIn-NeRF和OR-NeRF。定性結果顯示，作者的方法在完成更複雜的移除區域時效果更好。此外，作者的方法的訓練時間比SPIn-NeRF快1.5倍，比OR-NeRF快4倍。

Ablation Study：作者進行了單目深度監督和交叉注意力特征正則化的消融實驗。結果顯示，移除這些子產品會導緻名額下降，證明它們的有效性。

Additional Experiments：作者還與GaussianEditor進行了比較，并使用不同的深度估計模型和2D修複模型進行了消融實驗。結果顯示，準确深度估計和合理參考圖對結果非常重要。

本文介紹了一種名為GScream的新方法，用于從3D場景中高效地移除特定物體。該方法利用3D高斯濺射表示場景，并通過兩個關鍵創新點來提高移除區域的幾何一緻性和紋理連貫性。首先，作者提出了單目深度監督訓練，利用多視角圖像估計的深度資訊來優化3D高斯濺射的幾何表示，提高幾何一緻性。其次，作者提出了交叉注意力特征正則化，利用3D高斯表示的顯式性，在移除區域和可見區域之間傳播特征資訊，提高紋理連貫性。實驗結果顯示，GScream方法不僅效果優于基于NeRF的現有方法，而且在訓練和渲染速度上也有顯著提升。這為高效場景編輯和内容生成提供了新的思路。

本文僅做學術分享，如有侵權，請聯系删文。

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。

超越GaussianEditor | GScream：利用3D高斯高效、高品質物體移除

繼續閱讀

全球10大頂尖數學家 1. 英國牛頓 2. 德國高斯 3. 法國歐拉

謝賽甯團隊突破高斯潑濺記憶體瓶頸，并行方案實作多顯示卡訓練

三個丘成桐相加之後，能否與牛頓、高斯、歐拉和黎曼平起平坐？

王陽：與蔣欣分手後，轉頭娶小4歲的高斯，如今苦盡甘來終獲成功

負心漢王陽：與蔣欣相戀多年，扭頭就選擇了旺夫的高斯

王陽蔣欣相戀多年未果，後娶小四歲嬌妻高斯，如今二人事業紅火！

#分享我的話題榮譽#一條購物評語勝過頭條半月的稿酬我的快件收到了，裡面附有一張獎勵條子，我按照要求做了好評，把圖檔上傳過

測量工件是否含磁性物，自動化測量可用台式高斯計TD8650

3D高斯與光場技術研究與應用研讨會成功舉辦

“42.02萬高斯！破紀錄了！”

42.02萬高斯！破紀錄了！

CNCC | 三維重建的盡頭是高斯？三維高斯表達的建構與繪制技術進展

永磁體的磁通密度，可用台式高斯計TD8650測量

他和蔣欣相戀多年，卻娶了小4歲的高斯，如今妻子和他紅透半邊天

王陽：雖然我與蔣欣有一段情，但餘生不會辜負苦等我6年的高斯

知名主裁犯緻命錯誤，緻瓦林卡含冤出局，克耶高斯：他早該被炒了