天天看點

北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA

作者:3D視覺工坊

作者:Lizhi Wang |編輯:3DCV

添加微信:dddvision,備注:方向+機關+昵稱,拉你入群。文末附行業細分群

北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA

這篇文章介紹了一個名為OMEGAS的架構,旨在從大規模場景中提取指定對象的網格。OMEGAS架構通過多步方法實作,首先使用SAM模型引導3DGS的分割,建構目标對象的基本3DGS模型。接着,利用大規模擴散先驗(如Stable Diffusion)進一步優化3DGS模型的細節,特别是處理原始場景視圖中的不可見或被遮擋的部分。然後,将3DGS模型重新渲染到場景視圖中,實作準确的物體分割并有效移除背景。最後,将目标對象的圖像和3DGS模型輸入SuGaR模型中,進行進一步優化并提取最終網格。實驗結果顯示,OMEGAS在目标對象網格重建中具有顯著的性能優勢,特别是在紋理細節和抗遮擋性方面。

北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA

OMEGAS架構在從大場景中提取目标對象網格的主要步驟包括:

  1. 高斯分割:利用SAM模型進行初步的目标一緻性分割,然後采用3D高斯濺射(3DGS)對多視圖圖像進行場景重建和分割,并通過分類損失和3D餘弦相似度損失來優化分割結果。
  2. 目标高斯提取:使用Grounding DINO模型選擇目标對象,并提取對應的高斯表示。
  3. 高斯優化:通過随機視角渲染目标高斯模型,并利用穩定擴散模型的SDS損失來優化目标高斯模型,以增強細節并填充原始視圖的遮擋部分。
  4. 網格提取:将優化的3DGS模型渲染到輸入圖像上,獲得更精确的目标掩碼,并将其與優化的3DGS模型一起輸入SuGaR模型,以獲得最終的目标網格。

在多個資料集上驗證OMEGAS架構在目标對象網格提取方面的有效性,包括分割品質、網格品質以及遮擋魯棒性等名額的評估。總的來說,OMEGAS架構通過多步疊代優化,實作了從大場景中精确提取目标對象的高品質網格。

  1. 分類損失:利用渲染後的身份向量進行線性層處理,并通過交叉熵損失進行分類。
  2. 3D餘弦相似度損失:對采樣得到的3D高斯進行餘弦相似度計算,以提高3D一緻性的分割效果。
  3. 高斯損失:3DGS的原始高斯損失函數。
  4. 總損失:将上述損失函數進行權重求和,其中分類損失和3D餘弦相似度損失分别對應權重系數和。
北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA
北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA
  1. 渲染随機視角圖像:從随機視角渲染目标3DGS模型,以獲得更全面的重建效果。
  2. SDS損失優化:利用穩定擴散的SDS損失來優化3DGS模型,并采用“一個物體的照片”作為提示,以優化目标高斯模型。
  3. 增強細節和遮擋部分:穩定擴散的優化不僅提高了細節品質,而且有助于填充原始視圖的遮擋部分,進而實作更全面的重建效果。
  4. 渲染補充圖像:将随機視角渲染的3DGS圖像補充到SuGaR模型的輸入中,以增強對遮擋部分的重建效果。
  1. 分割品質:在LERF-MASK資料集上,OMEGAS架構相較于Gaussian Grouping基準實作了更好的分割品質,并且具有更高的訓練效率。
  2. 網格品質:在比較實驗中,OMEGAS架構相較于SuGaR和DreamGaussian基準展現了更好的網格細節和形狀。
  3. 遮擋魯棒性:在可視化實驗中,OMEGAS架構展示了對于遮擋和不可見部分的目标的重建效果。
  4. Ablation研究:Ablation研究表明,SDS優化能夠提高遮擋部分的重建效果,而SuGaR優化可以減輕SDS的負面影響,進而提升整體品質。
北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA
北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA
北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA
北郵 | OMEGAS:大場景中的目标分割、遮擋目标重建最新SOTA

總體來看,OMEGAS架構在分割品質、網格品質、遮擋魯棒性等方面展現了明顯的優越性。

OMEGAS架構:旨在從大規模場景中提取特定對象的網格。該架構采用了多個步驟,并整合了多種技術方法,包括SAM、3DGS、Stable Diffusion和SuGaR模型。實驗結果表明,OMEGAS在重建目标對象網格方面明顯優于現有方法,尤其在細節紋理和遮擋魯棒性方面表現突出。該架構在開放世界場景中為特定對象提供了高精度的網格提取能力,進而為AR、遊戲等下遊任務提供了更好的解決方案。

本文僅做學術分享,如有侵權,請聯系删文。

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀