天天看點

CVPR'24開源 | 增強一切3D任務!UniPAD:自動駕駛通用預訓練範式

作者:3D視覺工坊

0. 這篇文章幹了啥?

自監督學習能夠高效利用大量未标記資料,對于3D點雲資料具有重要意義。由于資料的固有稀疏性和傳感器放置以及其他場景元素的遮擋而導緻的點分布的可變性,直接将2D方法擴充到3D非常困難。

是以,這篇文章提出了一種針對有效3D表示學習的新型預訓練範式,不僅避免了複雜的正/負樣本配置設定,而且隐含地提供連續的監督信号來學習3D形狀結構。

下面一起來閱讀一下這項工作~

标題:UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

作者:Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang

機構:上海AI Lab、浙江大學、香港大學、中國科學技術大學、悉尼大學、之江實驗室

原文連結:https://arxiv.org/abs/2310.08370

代碼連結:https://github.com/Nightmare-n/UniPAD

在自動駕駛的背景下,有效特征學習的重要性被廣泛認可。雖然傳統的3D自監督預訓練方法已經取得了廣泛成功,但大多數方法都遵循了最初設計用于2D圖像的思想。在本文中,我們提出了UniPAD,一種新穎的自監督學習範式,應用了3D體積可微渲染。UniPAD隐含地編碼3D空間,有助于重建連續的3D形狀結構和它們的2D投影的複雜外觀特征。我們方法的靈活性使其能夠無縫內建到2D和3D架構中,進而更全面地了解場景。我們通過在各種下遊3D任務上進行大量實驗,證明了UniPAD的可行性和有效性。我們的方法顯著提高了基于雷射雷達、攝像頭和雷射雷達-攝像頭的基線分别達到了9.1、7.7和6.9的NDS。值得注意的是,我們的預訓練管道在nuScenes驗證集上實作了73.2的NDS,對3D物體檢測和3D語義分割的mIoU為79.4,與之前的方法相比取得了最先進的結果。

預訓練對3D檢測和分割的影響, 其中C,L和M分别表示相機,LiDAR和融合模态。3D目标檢測的NDS提高了9.1,3D語義分割的mIoU提高了6.1,超過了基于對比和MAE的方法的性能。在nuScenes資料集上實作了79.4的分割mIoU的最新SOTA。此外,該預訓練架構可以無縫應用于2D圖像骨幹,基于多視圖錄影機的3D檢測器的NDS提高了7.7。

CVPR'24開源 | 增強一切3D任務!UniPAD:自動駕駛通用預訓練範式

4. 主要貢獻

(1)第一個在自動駕駛背景下探索新型3D可微分渲染方法用于自監督學習的研究。

(2)該方法的靈活性使其易于擴充到預訓練2D骨幹。通過一種新穎的采樣政策,在效率和效果上都表現出優勢。

(3)在nuScenes資料集上進行了全面的實驗,在這些實驗中,該方法超越了六種預訓練政策的性能。涉及七種骨幹和兩種感覺任務的實驗為方法的有效性提供了令人信服的證據。

5. 基本原理

這個方法将掩蔽的點雲作為輸入,并旨在通過3D可微分神經渲染在投影的2D深度圖像上重建缺失的幾何形狀。具體而言,當提供掩蔽的LiDAR點雲時,使用3D編碼器提取分層特征。然後,将3D特征通過體素化轉換為體素空間,進一步應用可微分的體積渲染方法來重建完整的幾何表示。多視圖圖像特征通過lift-split-shoot(LSS)建構3D體積。為了在訓練階段保持效率,提出了一種專門設計用于自動駕駛應用的記憶體高效的射線采樣政策,它可以大大降低訓練成本和記憶體消耗。與傳統方法相比,新的采樣政策顯著提高了準确性。

總體架構。 以LiDAR點雲或多視角圖像作為輸入。首先提出掩碼生成器對輸入進行部分掩碼。接下來,使用特定模态的編碼器來提取稀疏的可視特征,然後将其轉換為以屏蔽區域為零的稠密特征。模式特異性特征随後被轉換到體素空間,接着是一個投影層以增強體素特征。最後,基于體的神經渲染對可見區域和遮擋區域都産生RGB或深度預測。

CVPR'24開源 | 增強一切3D任務!UniPAD:自動駕駛通用預訓練範式

6. 實驗結果

3D目标檢測效果。 在采用UVTR作為點模式( UVTR-L ),相機模式( UVTR-C ),相機掃描模式( UVTR-CS )和融合模式( UVTR-M )的基線。得益于有效的預訓練,UniPAD将基線UVTR - L、UVTR - C和UVTR - M分别提高了2.9、2.4和3.0 NDS。當使用多幀相機作為輸入時,UniPAD - CS比UVTR - CS帶來了1.4 NDS和3.6 mAP的增益。在基于單目的基線FCOS3D上也實作了1.7 NDS和2.1 mAP的提升。在沒有任何測試時間增長或模型內建的情況下,單模态和多模态方法UniPAD - L,UniPAD - C和UniPAD -- M的NDS分别為70.6,47.4和73.2,超過了現有的最先進的方法。

CVPR'24開源 | 增強一切3D任務!UniPAD:自動駕駛通用預訓練範式

3D語義分割。 在nuScenes Lidar - Seg資料集上将UniPAD與先前的點雲語義分割方法進行了比較。采用Pointcept實作的SpUNet作為基線。得益于有效的預訓練,Uni PAD将基線提高了6.1 mIoU,在驗證集上達到了最先進的性能。同時,UniPAD在測試集上取得了令人印象深刻的mIoU為81.1,這與現有的最先進的方法相當。

CVPR'24開源 | 增強一切3D任務!UniPAD:自動駕駛通用預訓練範式

基于圖像的預訓練。 将UniPAD與其他幾種基于圖像的預訓練方法進行了比較:1 )深度估計器:通過深度估計将3D先驗注入到2D學習的特征中;2 )檢測器:使用MaskRCNN在nuImages資料集上預訓練的權值初始化圖像編碼器;3 ) 3D檢測器:使用廣泛使用的單目3D檢測器的權重進行模型初始化,該模型依賴于3D标簽進行監督。與之前的無監督或有監督的預訓練方法相比,UniPAD展示了更強的知識遷移能力,展示了基于渲染的前文本任務的有效性。

基于點的預訓練。 對于點模态,也與最近提出的自監督方法進行了比較:1 )基于占位的方法:在架構中實作了ALSO來訓練點編碼器;2 )基于MAE的方法:采用領先執行的方法,利用倒角距離重建被遮擋的點雲。3 ) .基于對比:對比采用像素對點的對比學習方法,将2D知識內建到3D點中。在這些方法中,UniPAD取得了最好的效果 NDS性能。而UniPAD相對于基于對比的方法mAP略低,但避免了對比學習中複雜的正負樣本配置設定的需要。

不同的視角轉換。 研究了将2D特征轉換到3D空間的不同視圖轉換政策,包括BEVDet,BEVDepth和BEVformer。持續改進範圍為5.2 ~ 6.3 NDS可以通過不同的變換技術觀察到,這證明了所提出的方法具有很強的泛化能力。

不同模态。 與以往大多數預訓練方法不同,該架構可以無縫地應用于各種模态。為了驗證方法的有效性,将UVTR作為基線,它包含了點、相機和融合模式的檢測器。顯示了UniPAD對不同模态的影響,Uni PAD将UVTR - L、UVTR - C和UVTR - M分别提高了9.1、7.7和6.9 NDS。

CVPR'24開源 | 增強一切3D任務!UniPAD:自動駕駛通用預訓練範式

7. 總結 & 未來工作

這篇文章介紹了一種創新的自監督學習方法,命名為UniPAD,它在一系列3D下遊任務中表現出優異的性能。UniPAD以其巧妙地将NeRF适配為統一的渲染解碼器而脫穎而出,能夠無縫內建到2D和3D架構中。此外,作者提出了深度感覺的采樣政策,不僅降低了計算需求,而且提高了整體性能。UniPAD所固有的适應性為未來在自動駕駛領域利用成對圖像點資料進行跨模态互動的研究打開了大門。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺精品課程:

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器。

3D視覺學習圈子

3D視覺從入門到精通知識星球、國内成立最早、6000+成員交流學習。包括:星球視訊課程近20門(價值超6000)、項目對接、3D視覺學習路線總結、最新頂會論文&代碼、3D視覺行業最新模組、3D視覺優質源碼彙總、書籍推薦、程式設計基礎&學習工具、實戰項目&作業、求職招聘&面經&面試題等等。歡迎加入3D視覺從入門到精通知識星球,一起學習進步。

目前工坊已經建立了3D視覺方向多個社群,包括SLAM、工業3D視覺、自動駕駛、三維重建、無人機等方向,細分群包括:

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

繼續閱讀