北郵 | OMEGAS：大場景中的目标分割、遮擋目标重建最新SOTA

作者：Lizhi Wang |編輯：3DCV

添加微信：dddvision，備注：方向+機關+昵稱，拉你入群。文末附行業細分群

這篇文章介紹了一個名為OMEGAS的架構，旨在從大規模場景中提取指定對象的網格。OMEGAS架構通過多步方法實作，首先使用SAM模型引導3DGS的分割，建構目标對象的基本3DGS模型。接着，利用大規模擴散先驗（如Stable Diffusion）進一步優化3DGS模型的細節，特别是處理原始場景視圖中的不可見或被遮擋的部分。然後，将3DGS模型重新渲染到場景視圖中，實作準确的物體分割并有效移除背景。最後，将目标對象的圖像和3DGS模型輸入SuGaR模型中，進行進一步優化并提取最終網格。實驗結果顯示，OMEGAS在目标對象網格重建中具有顯著的性能優勢，特别是在紋理細節和抗遮擋性方面。

OMEGAS架構在從大場景中提取目标對象網格的主要步驟包括：

高斯分割：利用SAM模型進行初步的目标一緻性分割，然後采用3D高斯濺射(3DGS)對多視圖圖像進行場景重建和分割，并通過分類損失和3D餘弦相似度損失來優化分割結果。
目标高斯提取：使用Grounding DINO模型選擇目标對象，并提取對應的高斯表示。
高斯優化：通過随機視角渲染目标高斯模型，并利用穩定擴散模型的SDS損失來優化目标高斯模型，以增強細節并填充原始視圖的遮擋部分。
網格提取：将優化的3DGS模型渲染到輸入圖像上，獲得更精确的目标掩碼，并将其與優化的3DGS模型一起輸入SuGaR模型，以獲得最終的目标網格。

在多個資料集上驗證OMEGAS架構在目标對象網格提取方面的有效性，包括分割品質、網格品質以及遮擋魯棒性等名額的評估。總的來說，OMEGAS架構通過多步疊代優化，實作了從大場景中精确提取目标對象的高品質網格。

分類損失：利用渲染後的身份向量進行線性層處理，并通過交叉熵損失進行分類。
3D餘弦相似度損失：對采樣得到的3D高斯進行餘弦相似度計算，以提高3D一緻性的分割效果。
高斯損失：3DGS的原始高斯損失函數。
總損失：将上述損失函數進行權重求和，其中分類損失和3D餘弦相似度損失分别對應權重系數和。

渲染随機視角圖像：從随機視角渲染目标3DGS模型，以獲得更全面的重建效果。
SDS損失優化：利用穩定擴散的SDS損失來優化3DGS模型，并采用“一個物體的照片”作為提示，以優化目标高斯模型。
增強細節和遮擋部分：穩定擴散的優化不僅提高了細節品質，而且有助于填充原始視圖的遮擋部分，進而實作更全面的重建效果。
渲染補充圖像：将随機視角渲染的3DGS圖像補充到SuGaR模型的輸入中，以增強對遮擋部分的重建效果。

分割品質：在LERF-MASK資料集上，OMEGAS架構相較于Gaussian Grouping基準實作了更好的分割品質，并且具有更高的訓練效率。
網格品質：在比較實驗中，OMEGAS架構相較于SuGaR和DreamGaussian基準展現了更好的網格細節和形狀。
遮擋魯棒性：在可視化實驗中，OMEGAS架構展示了對于遮擋和不可見部分的目标的重建效果。
Ablation研究：Ablation研究表明，SDS優化能夠提高遮擋部分的重建效果，而SuGaR優化可以減輕SDS的負面影響，進而提升整體品質。

總體來看，OMEGAS架構在分割品質、網格品質、遮擋魯棒性等方面展現了明顯的優越性。

OMEGAS架構：旨在從大規模場景中提取特定對象的網格。該架構采用了多個步驟，并整合了多種技術方法，包括SAM、3DGS、Stable Diffusion和SuGaR模型。實驗結果表明，OMEGAS在重建目标對象網格方面明顯優于現有方法，尤其在細節紋理和遮擋魯棒性方面表現突出。該架構在開放世界場景中為特定對象提供了高精度的網格提取能力，進而為AR、遊戲等下遊任務提供了更好的解決方案。

本文僅做學術分享，如有侵權，請聯系删文。

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。

北郵 | OMEGAS：大場景中的目标分割、遮擋目标重建最新SOTA

繼續閱讀

王毅外長當面把話挑明，韓外長積極回應，并向中方發出重要邀請

#華為WATCH FIT 3 正式釋出#華為夏季全場景新品釋出會有大動作，全新超輕薄智能方表WatchFIT3強勢釋出！

#華為WATCH FIT 3 正式釋出#華為的夏季全場景新品釋出會在5月15号正式舉行，一口氣釋出了許多新品，其中華為超

新款華為MateBook 14釋出首次支援手寫筆，用實力征服全場景

拍照證件照軟體哪個效果最好？滿足遵循格式要求場景

34歲女子被六年級男孩搭讪！男孩一個勁地誇女子年輕身材好，還提出想抱一抱女子。女子直呼：受不了，現在的孩子太早熟了吧？

華為全場景新品登場！筆記本用上手寫筆，電視當手機玩，199元起

華為全場景釋出會，竟一次釋出了這麼多産品

可愛的娃娃與切割的火腿，詭異的場景，讓人不寒而栗

【大創榜young】烏蘭之聲——打造全領域、全場景應用的少數民族智能廣播影音品牌

火山引擎入場大模型，場景、場景、場景

怎麼把美學場景“打包”成産品子產品？

胡歌重返黃河路，繁花情懷再現，經典場景引發共鳴

胡歌與任魯豫再現黃河路，懷舊繁花情感場景重制

智能生活新篇章：華為全場景新品解讀

【約會穿搭指南】6個約會場景的公式，不用絞盡腦汁的穿啥？