天天看點

北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解

作者:3D視覺工坊

作者:Guibiao Liao | 編輯:3DCV

添加微信:cv3d008,備注:方向+機關+昵稱,拉你入群。文末附行業細分群

北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解

1、導讀

這篇文章介紹了一種名為CLIP-GS的方法,該方法将CLIP模型的語義資訊與3D高斯濺射相結合,用于實作對3D場景的實時、精确語義了解。該方法的關鍵創新包括利用高斯濺射的高效渲染能力,以及引入語義屬性緊湊性和3D協同自訓練政策。實驗結果表明,CLIP-GS在多個資料集上取得了最先進的性能,尤其在實時渲染速度和分割精度方面表現突出。總的來說,這篇文章提出了一種高效精确的3D語義了解方法,通過融合語義資訊和高效渲染技術,為3D場景了解領域帶來了新的突破。

2、論文資訊

标題:CLIP-GS: CLIP-INFORMED GAUSSIAN SPLATTING FOR REAL-TIME AND VIEW-CONSISTENT 3D SEMANTIC UNDERSTANDING

作者:Guibiao Liao等人

機關:北京大學等機關

論文:https://arxiv.org/pdf/2404.14249

3、主要貢獻

CLIP-GS方法的主要貢獻包括以下幾點:

  1. 語義緊湊性(SAC):提出了語義緊湊性方法,利用同一物體的統一語義,通過學習每個物體的代表語義特征,最小化學習備援的相似特征,實作高效渲染。
  2. 3D一緻自訓練(3DCS):引入了3D一緻自訓練政策,利用訓練後的3D高斯模型産生的僞标簽進行跨視圖語義一緻性限制,增強高斯模型的視圖一緻性語義學習。
  3. 實驗驗證:實驗證明,該方法在多個資料集上優于其他基于CLIP的3D語義分割方法,提高了語義分割精度和渲染效率,同時展現了方法在稀疏輸入資料下的魯棒性。

4、CLIP-GS

北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解

CLIP-GS優化

如圖所示較長的描述了CLIP-GS方法的優化過程。首先,為了表示3D場景,我們遵循3DGS方法,在3D高斯分布中增加了一個額外的屬性:語義嵌入。然後,使用可微分的光栅化器将這些3D高斯屬性渲染到2D平面上進行優化。其次,優化過程分為兩個階段。在第一階段,我們引入了語義屬性緊湊性(SAC)方法,以學習3D高斯的緊湊語義表示,進而實作高效的渲染。在第二階段,訓練了CLIP-GS幾輪後,我們引入了3D一緻自訓練(3DCS)方法。3DCS利用來自CLIP-GS的跨視圖自我預測語義,并通過一緻性正則化進行增強,為高斯提供更強的視圖一緻性監督。值得注意的是,為了簡化,我們省略了自适應密度控制和顔色優化過程,這部分與3DGS相同。

4.1、語義緊湊性(SAC)

SAC方法的思路是利用同一物體内在統一的語義意義進行高效表示。具體來說,通過分割任意模型(SAM)獲得區域掩碼,對每個區域計算語義特征的權重平均,得到代表該區域的統一語義特征。然後,使用語義索引表示這些統一特征,得到語義索引圖。通過這種方式,輸入訓練視圖的CLIP語義特征可以緊湊地表示為統一特征和低維語義索引圖。在優化過程中,為每個3D高斯嵌入低維語義可學習參數,然後利用α混合渲染學習語義索引,以檢索CLIP特征。此外,為了進一步加速學習過程,我們在訓練前離線計算檢索過程。SAC方法通過将緊湊的語義資訊嵌入到3D高斯中,實作了高效渲染,同時保持了高品質的視覺結果。是以,SAC方法對于高效表示場景語義并實作精确語義分割具有重要意義。

4.2、3D一緻自訓練

3DCS方法的關鍵思想是利用3D模型固有的跨視圖一緻性來增強語義一緻性。具體來說,在訓練3D高斯分布一段時間後,我們使用訓練好的3D高斯模型渲染出訓練視圖的語義圖。然後,利用SAM生成的區域掩碼,将相鄰視圖的語義資訊整合到目前視圖的語義圖中,以消除同一物體在不同視圖中的語義歧義。為了實作這種一緻性正則化,我們使用多數投票機制,結合相鄰視圖的語義資訊,對目前視圖的語義進行統一。這樣,通過自訓練方式利用了3D模型的一緻性輸出,為3D高斯提供了跨視圖一緻的語義監督,進而增強了語義的一緻性。3DCS方法通過利用3D模型的一緻性輸出,為3D高斯提供了跨視圖一緻的語義監督,有效改善了語義的一緻性。是以,該方法對于提高3D語義分割的精确性和一緻性具有重要意義。

4.3、端到端訓練過程

整個模型的訓練過程包括兩個階段:

  1. Phase I:在這一階段,我們使用語義屬性緊湊性(SAC)方法,通過計算訓練視圖的語義損失(L2Ds)來優化3D高斯的語義嵌入參數。這一階段的主要目标是學習緊湊高效的語義表示。
  2. Phase II:在訓練3D高斯分布一定次數(T次)後,我們進入第二階段。在這一階段,我們使用3D一緻自訓練(3DCS)方法,通過計算3D自訓練損失(L3Ds)來替換L2Ds,以增強語義一緻性。3DCS方法利用跨視圖語義一緻性限制來增強監督信号,進一步提高語義分割的精确性。此外,為了在保持高品質場景表示的同時提高渲染效率,我們引入了漸進密度調節(Progressive Densification Regulation, PDR)政策。該政策逐漸增加圖像分辨率和密度控制頻率,有效減少了高斯點的數量,同時保持了渲染品質。

5、實驗

定量比較:在定量比較中,我們的方法在渲染品質和分割精度上均優于其他競争方法。特别是在Replica和ScanNet資料集上,我們的方法相較于次優方法在mIoU名額上分别提高了17.29%和20.81%。

北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解
北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解

定性比較:在定性比較中,我們的方法在不同視圖中獲得了更連續和一緻的語義分割結果。相比其他方法,我們的方法呈現了更好的視覺渲染品質,并且在稀疏輸入資料下也展現出穩健的重建品質和分割性能。

ablation研究:ablation研究表明,SAC、3DCS和PDR政策都對最終性能有顯著的貢獻。具體來說,SAC提高了推理效率和分割精度;3DCS引入了重要的跨視圖一緻語義限制,提升了語義品質;PDR政策通過減少高斯點數量有效提升了效率。

北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解
北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解
北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解
北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解
北大 | CLIP模型語義資訊與3DGS,對3D場景的實時、精确語義了解

6、結論

在這段内容中,作者介紹了他們提出的一種名為CLIP-GS的新方法,旨在通過高斯濺射(Gaussian Splatting)實作3D場景的實時和精确語義了解。該方法包含兩個關鍵組成部分:

  1. 語義屬性緊湊性(SAC):該方法将緊湊的語義資訊嵌入到3D高斯中,以高效表示3D語義,進而確定了渲染的高效率。
  2. 3D一緻自訓練(3DCS):該方法增強了不同視圖之間的語義一緻性,進而産生了準确的3D分割結果。

通過在合成和真實世界場景上的實驗,作者發現該方法顯著優于現有最先進的方法,同時在稀疏輸入資料下也表現出優越的性能,驗證了其在3D語義學習方面的穩健性。

本文僅做學術分享,如有侵權,請聯系删文。

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀