天天看點

超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

作者:3D視覺工坊

作者:Yuxin Wan |編輯:3DCV

添加微信:cv3d008,備注:方向+機關+昵稱,拉你入群。文末附行業細分群

超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

這篇文章介紹了一種名為GScream的新方法,用于從3D場景中去除指定對象。該方法基于3D高斯濺射(3DGS)表示,通過引入單目深度估計來增強幾何一緻性,并采用一種新穎的特征傳播機制來提高紋理一緻性。實驗證明,該方法不僅提高了去除物體後新視角合成的品質,也顯著提高了訓練和渲染的速度。與傳統的基于NeRF的方法相比,GScream表現出了效率和效果的顯著提升。

标題:Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal

作者:Yuxin Wang等人

機關:HKUST等機關

論文:https://arxiv.org/pdf/2404.13679.pdf

GScream方法的主要貢獻包括以下幾點:

  • 3D Gaussian Splatting應用:首次将3D高斯濺射應用于物體移除任務,并提出了一種高效且品質較高的物體移除方法。
  • 深度監督:引入單目深度估計作為額外幾何限制,提高了3D高斯濺射的幾何精度,進而提高了移除區域的幾何一緻性。
  • 交叉注意力特征正則化:提出了一種交叉注意力機制,用于在可見區域和移除區域之間進行資訊交換,增強了移除區域的紋理一緻性。
  • 輕量級模型:采用了一種輕量級的高斯濺射模型Scaffold-GS作為基礎模型,提高了訓練和渲染效率。
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

GScream

根據論文研究,GScream是一個利用3D高斯濺射(3DGS)進行目标移除的架構。該架構包括兩個關鍵元件:

  1. 單目深度引導訓練:通過引入單目深度估計作為額外的幾何限制,來優化高斯濺射的位置,提高幾何一緻性。線上深度對齊和監督子產品利用估計的深度圖進行監督。
  2. 交叉注意力特征正則化:在可見區域和移除區域的3D高斯簇之間傳播資訊,以提高移除區域的紋理一緻性。這包括3D高斯采樣和雙向交叉注意力子產品。

這兩個元件共同作用,提高移除區域的幾何和紋理一緻性,進而實作高品質的移除效果。GScream架構利用了3DGS的高效表示,使得訓練和渲染速度得到提升。

4.1、單目深度引導訓練

具體步驟如下:

  1. 首先,使用單目深度估計模型從多視圖圖像中提取每個圖像的深度圖。其中,對應參考視圖的深度圖。
  2. 然後,提出了一種線上深度對齊和監督的設計,以利用深度引導。具體來說,使用以下權重深度損失:
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

其中,M'代表不同視圖的權重。其中,w和q是用于線上對齊的尺度和平移參數,通過解決最小二乘問題得到。

  1. 除此之外,還采用了以下損失函數:
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除
  1. 最後,使用多視圖顔色重建損失來限制渲染圖像與真實圖像的相似度:
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

通過引入單目深度估計作為額外的幾何限制,并采用線上深度對齊和監督的設計,可以顯著提高3DGS的幾何一緻性,進而為後續的紋理傳播提供更準确的幾何基礎。

4.2、交叉注意力特征正則化

超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

3D Gaussian Sampling:首先,針對每個視角i,作者對包含移除區域和周圍區域的3D高斯簇進行采樣。具體方法是根據2D掩膜邊界投影3D高斯質心到目前視角,并找出落在采樣2D patch内的3D高斯簇。這些3D高斯簇可以根據其2D投影是否在2D掩膜内分為移除區域和周圍區域兩組。作者的目标是采樣移除區域和周圍區域的3D點。

Bidirectional Cross-Attention:接着,作者對兩組3D高斯特征進行雙向交叉注意力,以在它們之間傳播資訊。具體方法是将兩組特征拼接成兩個tokens,并輸入到一個雙向交叉注意力結構中。該結構包含共享參數的交叉注意力子產品,可以雙向傳播資訊。輸出的更新特征被配置設定回對應的3D高斯簇。

通過這種雙向交叉注意力設計,作者可以增強移除區域和周圍區域的特征一緻性,提高渲染結果的紋理連貫性。作者利用3D高斯表示的顯式性,通過特征傳播改進移除區域的紋理品質。

實驗設定:作者在SPIn-NeRF和IBRNet兩個資料集上進行物體移除實驗。其中,SPIn-NeRF資料集包含10個場景,每個場景100張多視角圖像以及前景物體掩膜;IBRNet資料集包含5個真實手機拍攝場景。此外,作者使用了3個最新方法的基線進行比較,包括SPIn-NeRF、OR-NeRF和View-Sub。對于評價名額,作者計算了PSNR、SSIM、LPIPS、FID等名額,并記錄了訓練時間,以評估方法的效率。

與最新方法的比較:作者通過定量和定性比較展示了方法與最新基線的比較結果。定量結果顯示,作者的方法在PSNR、SSIM、LPIPS、FID等名額上優于或持平SPIn-NeRF和OR-NeRF。定性結果顯示,作者的方法在完成更複雜的移除區域時效果更好。此外,作者的方法的訓練時間比SPIn-NeRF快1.5倍,比OR-NeRF快4倍。

Ablation Study:作者進行了單目深度監督和交叉注意力特征正則化的消融實驗。結果顯示,移除這些子產品會導緻名額下降,證明它們的有效性。

Additional Experiments:作者還與GaussianEditor進行了比較,并使用不同的深度估計模型和2D修複模型進行了消融實驗。結果顯示,準确深度估計和合理參考圖對結果非常重要。

超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除
超越GaussianEditor | GScream:利用3D高斯高效、高品質物體移除

本文介紹了一種名為GScream的新方法,用于從3D場景中高效地移除特定物體。該方法利用3D高斯濺射表示場景,并通過兩個關鍵創新點來提高移除區域的幾何一緻性和紋理連貫性。首先,作者提出了單目深度監督訓練,利用多視角圖像估計的深度資訊來優化3D高斯濺射的幾何表示,提高幾何一緻性。其次,作者提出了交叉注意力特征正則化,利用3D高斯表示的顯式性,在移除區域和可見區域之間傳播特征資訊,提高紋理連貫性。實驗結果顯示,GScream方法不僅效果優于基于NeRF的現有方法,而且在訓練和渲染速度上也有顯著提升。這為高效場景編輯和内容生成提供了新的思路。

本文僅做學術分享,如有侵權,請聯系删文。

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀