作者:Lizhi Wang |編輯:3DCV
添加微信:dddvision,備注:方向+機關+昵稱,拉你入群。文末附行業細分群
這篇文章介紹了一個名為OMEGAS的架構,旨在從大規模場景中提取指定對象的網格。OMEGAS架構通過多步方法實作,首先使用SAM模型引導3DGS的分割,建構目标對象的基本3DGS模型。接着,利用大規模擴散先驗(如Stable Diffusion)進一步優化3DGS模型的細節,特别是處理原始場景視圖中的不可見或被遮擋的部分。然後,将3DGS模型重新渲染到場景視圖中,實作準确的物體分割并有效移除背景。最後,将目标對象的圖像和3DGS模型輸入SuGaR模型中,進行進一步優化并提取最終網格。實驗結果顯示,OMEGAS在目标對象網格重建中具有顯著的性能優勢,特别是在紋理細節和抗遮擋性方面。
OMEGAS架構在從大場景中提取目标對象網格的主要步驟包括:
- 高斯分割:利用SAM模型進行初步的目标一緻性分割,然後采用3D高斯濺射(3DGS)對多視圖圖像進行場景重建和分割,并通過分類損失和3D餘弦相似度損失來優化分割結果。
- 目标高斯提取:使用Grounding DINO模型選擇目标對象,并提取對應的高斯表示。
- 高斯優化:通過随機視角渲染目标高斯模型,并利用穩定擴散模型的SDS損失來優化目标高斯模型,以增強細節并填充原始視圖的遮擋部分。
- 網格提取:将優化的3DGS模型渲染到輸入圖像上,獲得更精确的目标掩碼,并将其與優化的3DGS模型一起輸入SuGaR模型,以獲得最終的目标網格。
在多個資料集上驗證OMEGAS架構在目标對象網格提取方面的有效性,包括分割品質、網格品質以及遮擋魯棒性等名額的評估。總的來說,OMEGAS架構通過多步疊代優化,實作了從大場景中精确提取目标對象的高品質網格。
- 分類損失:利用渲染後的身份向量進行線性層處理,并通過交叉熵損失進行分類。
- 3D餘弦相似度損失:對采樣得到的3D高斯進行餘弦相似度計算,以提高3D一緻性的分割效果。
- 高斯損失:3DGS的原始高斯損失函數。
- 總損失:将上述損失函數進行權重求和,其中分類損失和3D餘弦相似度損失分别對應權重系數和。
- 渲染随機視角圖像:從随機視角渲染目标3DGS模型,以獲得更全面的重建效果。
- SDS損失優化:利用穩定擴散的SDS損失來優化3DGS模型,并采用“一個物體的照片”作為提示,以優化目标高斯模型。
- 增強細節和遮擋部分:穩定擴散的優化不僅提高了細節品質,而且有助于填充原始視圖的遮擋部分,進而實作更全面的重建效果。
- 渲染補充圖像:将随機視角渲染的3DGS圖像補充到SuGaR模型的輸入中,以增強對遮擋部分的重建效果。
- 分割品質:在LERF-MASK資料集上,OMEGAS架構相較于Gaussian Grouping基準實作了更好的分割品質,并且具有更高的訓練效率。
- 網格品質:在比較實驗中,OMEGAS架構相較于SuGaR和DreamGaussian基準展現了更好的網格細節和形狀。
- 遮擋魯棒性:在可視化實驗中,OMEGAS架構展示了對于遮擋和不可見部分的目标的重建效果。
- Ablation研究:Ablation研究表明,SDS優化能夠提高遮擋部分的重建效果,而SuGaR優化可以減輕SDS的負面影響,進而提升整體品質。
總體來看,OMEGAS架構在分割品質、網格品質、遮擋魯棒性等方面展現了明顯的優越性。
OMEGAS架構:旨在從大規模場景中提取特定對象的網格。該架構采用了多個步驟,并整合了多種技術方法,包括SAM、3DGS、Stable Diffusion和SuGaR模型。實驗結果表明,OMEGAS在重建目标對象網格方面明顯優于現有方法,尤其在細節紋理和遮擋魯棒性方面表現突出。該架構在開放世界場景中為特定對象提供了高精度的網格提取能力,進而為AR、遊戲等下遊任務提供了更好的解決方案。
本文僅做學術分享,如有侵權,請聯系删文。
3DCV技術交流群
目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:
2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等
大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等
工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。
SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。
自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。
三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等
無人機:四旋翼模組化、無人機飛控等
除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群
添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。
3D視覺技術星球
3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。