天天看點

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

标題:A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective

作者:Huaiyuan Xu, Junliang Chen, Shiyu Meng, Yi Wang, Lap-Pui Chau

機構:香港理工大學

原文連結:https://arxiv.org/abs/2405.05173

Github:https://github.com/HuaiyuanXu/3D-Occupancy-Perception

3D占用感覺技術旨在觀察和了解自動駕駛車輛的密集3D環境。由于其全面的感覺能力,這項技術正在自動駕駛感覺系統中嶄露頭角,并引起了行業和學術界的廣泛關注。與傳統的鳥瞰圖(BEV)感覺類似,3D占用感覺具有多源輸入的特性和資訊融合的必要性。但是,不同之處在于它捕捉了2D BEV忽略的垂直結構。在這項調查中,我們回顧了關于3D占用感覺的最新工作,并對具有不同輸入模式的方法進行了深入分析。具體來說,我們總結了通用網絡流程,突出了資訊融合技術,并讨論了有效的網絡訓練。我們評估并分析了最先進技術在最流行資料集上的占用感覺性能。此外,我們還讨論了挑戰和未來研究方向。我們希望這份報告能激勵社群,并鼓勵更多關于3D占用感覺的研究工作。此調查中的研究綜述清單可在一個持續收集最新工作的活躍存儲庫中找到:https://github.com/HuaiyuanXu/3D-Occupancy-Perception。

2.1. 自動駕駛中的占用感覺

自動駕駛可以提高城市交通效率,并降低能源消耗。對于可靠和安全的自動駕駛,一個至關重要的能力是準确和全面地了解周圍環境,即感覺觀察到的世界。目前,鳥瞰視圖(BEV)感覺是主流的感覺模式,具有絕對尺度和無遮擋描述環境的優勢。BEV感覺為多源資訊融合(例如,來自不同視角、模态、傳感器和時間序列的資訊)提供了統一的表示空間,并提供了許多下遊應用(例如,可解釋的決策制定和運動規劃)。然而,BEV感覺不監視高度資訊,是以無法為3D場景提供完整的表示。為了解決這個問題,占用感覺被提出用于自動駕駛,以捕捉現實世界的密集3D結構。這種新興的感覺技術旨在推斷用于體素化世界的每個體素的占用狀态,其特點是對開放式目标、不規則形狀的車輛和特殊道路結構具有很強的泛化能力。與透視視圖和鳥瞰視圖等2D視圖相比,占用感覺具有3D屬性的本質,使其更适用于3D下遊任務,如3D檢測和分割。

在學術界和工業界,對整體3D場景了解的占用感覺提出了有意義的影響。在學術考慮方面,從複雜的輸入格式(包括多個傳感器、模态和時間序列)中估計真實3D世界的密集體素占用是具有挑戰性的。此外,進一步推理占用體素的語義類别、文本描述和運動狀态對于對環境的更全面了解是有價值的。從工業角度看,每輛自動駕駛車輛上部署一個雷射雷達套件是昂貴的。以相機作為雷射雷達的廉價替代品,以視覺為中心的占用感覺确實是一種成本效益高的解決方案,可以降低車輛裝置制造成本。

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

2.2. 資訊融合研究的動機

占用感覺的要義在于了解完整和密集的3D場景,包括了解遮擋區域。然而,來自單個傳感器(如2D圖像或點雲)的觀察僅捕獲場景的部分。圖1直覺地說明了圖像或點雲無法提供3D全景或密集環境掃描,導緻場景感覺不足。為此,研究從多個傳感器和多個幀中融合資訊将促進全面的占用感覺。這是因為,一方面,資訊融合擴充了空間感覺範圍,另一方面,它密集了場景觀察。此外,在遮擋區域,整合多幀觀察是有益的,因為同一場景被大量視點觀察到,為遮擋推理提供了足夠的場景特征。

此外,在動态戶外場景中,自動駕駛車輛必須在不同的光照和天氣條件下導航複雜環境,穩定的占用感覺需求至關重要。感覺的魯棒性對于確定駕駛安全和效率至關重要。在這一點上,多模态融合的研究将促進魯棒的占用感覺,通過結合不同資料模态的優勢。例如,雷射雷達和雷達資料不受照明變化的影響,并可以感覺場景的精确深度。這種能力在夜間駕駛或在陰影和耀斑可能遮擋關鍵資訊的情況下尤為重要。相機資料在捕捉詳細的視覺紋理方面表現出色,擅長識别遠距離和基于顔色的環境元素,如道路标志、交通燈和車道标記。來自這些多種模态的資料的融合将呈現出環境的整體視圖,同時抵禦不利的環境變化。

2.3. 貢獻

關于相關感覺主題,3D語義分割和3D物體檢測已經得到了廣泛的審查。然而,這些任務并不便于對環境進行密集了解。BEV感覺,解決了這個問題,也已經得到了徹底的審查。我們的調查重點是3D占用感覺,捕捉了BEV感覺忽視的環境高度資訊。Roldao等人對室内和室外場景的3D場景完成進行了文獻綜述,這與我們的重點密切相關。與他們的工作不同,我們的調查專門針對自動駕駛場景進行了定制。此外,鑒于3D占用感覺的多源性質,我們對該領域的資訊融合技術進行了深入分析。本調查的主要貢獻有三個方面:

• 我們系統地審查了自動駕駛領域中3D占用感覺的最新研究,包括整體研究背景、其重要性的綜合分析和相關技術的深入讨論。

• 我們提供了3D占用感覺的分類法,并詳細介紹了核心方法問題,包括網絡管道、多源資訊融合和有效的網絡訓練。

• 我們對3D占用感覺進行了評估,并提供了詳細的性能比較。此外,讨論了目前的限制和未來的研究方向。

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

最近的自動駕駛占用感覺方法及其特點在表1中詳細說明。該表詳細說明了每種方法的出版場所、輸入模态、網絡設計、目标任務、網絡訓練和評估,以及開源狀态。下面,我們根據輸入資料的模态将占用感覺方法分為三類。它們是LiDAR中心的占用感覺、視覺中心的占用感覺和多模态占用感覺。随後,讨論了占用網絡的訓練及其損失函數。最後,介紹了利用占用感覺的多樣化下遊應用。

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角
最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

4.1. 感覺準确度

SemanticKITTI是首個針對戶外駕駛場景具有3D占據标簽的資料集。Occ3D-nuScenes是CVPR 2023年3D占據預測挑戰賽中使用的資料集。這兩個資料集目前是最受歡迎的。是以,我們總結了在這些資料集上訓練和測試的各種3D占據方法的性能,如表3和4所述。這些表格進一步根據輸入模态和監督學習類型組織占據方法。最佳性能已用粗體突出顯示。表3利用IoU和mIoU名額評估3D幾何和3D語義占用感覺能力。表4采用mIoU和mIoU∗評估語義占用感覺。與mIoU不同,mIoU∗名額排除了"其他"和"其他平坦"類,并由自監督OccNeRF使用。為了公平起見,我們計算了其他自監督占據方法的mIoU∗。值得注意的是,OccScore名額用于CVPR 2024年自主大挑戰,但目前尚不普遍。是以,我們不使用此名額總結占據性能。接下來,我們将從三個方面比較感覺準确度:總體比較,模态比較和監督比較。

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

(1) 總體比較。表3顯示:(i) 占據網絡的IoU分數低于50%,而mIoU分數低于30%。IoU分數(表示幾何感覺,即忽略語義)遠遠超過mIoU分數。這是因為對于某些語義類别來說,預測占據是具有挑戰性的,例如自行車,機車,人,騎自行車者,騎機車者,杆和交通标志。這些類别中的每一個在資料集中的比例都很小(低于0.3%),它們在形狀上的小尺寸使它們難以觀察和檢測。是以,如果這些類别的IOU分數低,它們會顯着影響總體mIoU值。因為mIOU計算不考慮類别頻率,它将所有類别的總IoU分數除以類别數。(ii) 較高的IoU并不保證較高的mIoU。一個可能的解釋是,占據網絡的語義感覺能力(反映在mIoU中)和幾何感覺能力(反映在IoU中)是不同的,并且不是正相關的。從表4可以看出:(i) 占據網絡的mIOU分數在50%以内,高于SemanticKITTI上的分數。例如,TPVFormer在SemanticKITTI上的mIOU為11.26%,但在Occ3D-nuScenes上為27.83%。類似地,OccFormer和SurroundOcc也是如此。我們認為這可能是因為Occ3D-nuScenes中有更準确的占據标簽。SemanticKITTI根據雷射雷達點雲為每個體素進行标注,即根據體素内所有标記點的多數投票配置設定标簽給體素。相比之下,Occ3D-nuScenes利用了一個複雜的标簽生成過程,包括體素緻密化,遮擋推理和圖像引導體素細化。這種注釋可以産生更精确和密集的3D占據标簽。(ii) COTR在所有類别中都實作了最高的IoU分數。

(2) 模态比較。輸入資料模态顯著影響3D占據感覺準确度。表3的"Mod."列報告了各種占據方法的輸入模态。可以看出,由于雷射雷達感覺提供了準确的深度資訊,雷射雷達中心的占據方法具有更高的IoU和mIoU分數的更精确的感覺。例如,S3CNet有最高的mIoU(29.53%),而DIFs實作了最高的IoU(58.90%)。我們觀察到,這兩種多模态方法并沒有超過S3CNet和DIFs,表明它們沒有充分利用多模态融合和輸入資料的豐富性。多模态占據感覺還有很大的改進空間。此外,盡管視覺中心的占據感覺在近年來取得了快速發展,正如從表3中可以看出的那樣,最先進的視覺中心的占據方法在IoU和mIoU方面仍然與雷射雷達中心的方法存在差距。我們認為進一步改進視覺中心方法的深度估計是必要的。

(3) 監督比較。表4的"Sup."列概述了用于訓練占據網絡的監督學習類型。直接使用3D占據标簽進行強監督訓練是最普遍的類型。表4顯示,基于強監督學習的占據網絡實作了令人印象深刻的性能。FastOcc,FB-Occ,PanoOcc和COTR的mIoU分數明顯較高(比弱監督或自監督方法提高了12.42%-38.24%的mIoU)。這是因為資料集提供的占據标簽被精心注釋,具有高精度,并且可以對網絡訓練施加強大的限制。然而,注釋這些密集的占據标簽是耗時且費力的。有必要探索基于弱或自監督的網絡訓練,以減少對占據标簽的依賴。Vampire是基于弱監督學習的表現最佳的方法,實作了28.33%的mIoU分數。它表明語義雷射雷達點雲可以監督3D占據網絡的訓練。然而,收集和注釋語義雷射雷達點雲是昂貴的。SelfOcc和OccNeRF是兩種基于自監督學習的典型占據作品。它們利用體積渲染和光度一緻性擷取自監督信号,證明了網絡可以學習3D占據感覺而無需任何标簽。然而,它們的性能仍然受限,SelfOcc 實作了7.97%的mIoU,OccNeRF 實作了10.81%的mIoU∗。

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

4.2. 推理速度

最近對3D占據感覺的研究已經開始考慮不僅僅是感覺準确度,還有其推理速度。根據FastOcc和FullySparse提供的資料,我們整理了3D占據方法的推理速度,并報告了它們的運作平台、輸入圖像大小、主幹架構和在Occ3D-nuScenes資料集上的占據精度,如表5所示。實用的占據方法應具有高準确度(mIoU)和快速推理速度(FPS)。從表5可以看出,FastOcc 實作了較高的mIoU(40.75%),與BEVFomer的mIOU相當。值得注意的是,FastOcc 在性能較低的GPU平台上具有更高的FPS值,而BEVFomer。此外,在通過TensorRT [132] 加速之後,FastOcc的推理速度達到了12.8Hz。

最新最全總結!自動駕駛Occupancy感覺綜述:資訊融合視角

5.1. 自動駕駛中的基于占用的應用

3D占用感覺實作了對3D世界的全面了解,并支援自動駕駛中的各種任務。現有的基于占用的應用包括分割、檢測、流預測和規劃。

(1) 分割:語義占用感覺基本上可以看作是一個3D語義分割任務。(2) 檢測:OccupancyM3D和 SOGDet是兩個基于占用的工作,用于實作3D物體檢測。OccupancyM3D 首先學習占用以增強3D特征,然後用于3D檢測。SOGDet 開發了兩個并行任務:語義占用預測和3D物體檢測,同時訓練這些任務以互相增強。(3) 流預測:Cam4DOcc從占用的視角預測3D空間中的前景流,并實作對周圍3D環境變化的了解。(4) 規劃:OccNet将實體3D場景量化為語義占用,并訓練一個共享的占用描述符。這個描述符被饋送到各種任務頭中以實作駕駛任務。例如,運動規劃頭部為自車輸出規劃軌迹。然而,現有的基于占用的應用主要集中在感覺層面,較少涉及決策層面。鑒于3D占用與3D實體世界的一緻性比其他感覺方式(例如,鳥瞰視圖感覺和透視視圖感覺)更高,我們相信3D占用在自動駕駛中具有更廣泛的應用機會。在感覺層面,它可以提高現有軌迹預測、3D物體跟蹤和3D車道線檢測的準确性。在決策層面,它可以幫助更安全的駕駛決策,并為駕駛行為提供3D可解釋性。

5.2. 部署效率

對于複雜的3D場景,總是需要處理和分析大量的點雲資料或多視圖視覺資訊,以提取和更新占用狀态資訊。為了實作自動駕駛應用的實時性能,解決方案通常需要在有限的時間内完成計算,并且需要具有高效的資料結構和算法設計。總的來說,在目标邊緣裝置上部署深度學習算法并不是一件容易的事情。

目前,已經嘗試了一些關于占用任務的實時努力。例如, FastOcc通過調整輸入分辨率、視圖變換子產品和預測頭來加速預測推理速度。SparseOcc是一種沒有任何密集3D特征的稀疏占用網絡,以最小化基于稀疏卷積層和掩碼引導稀疏采樣的計算成本。唐等人提出采用稀疏潛在表示而不是TPV表示和稀疏插值操作,以避免資訊丢失和降低計算複雜性。然而,上述方法仍然距離自動駕駛系統的實時部署有一段距離。

5.3. 強大的3D占用感覺

在動态和不可預測的現實世界駕駛環境中,感覺的魯棒性對于自動駕駛車輛的安全至關重要。最先進的3D占用模型可能對超出分布範圍的場景和資料(例如,光照和天氣的變化)脆弱,這些變化會引入視覺偏差,以及由車輛運動引起的輸入圖像模糊。此外,傳感器故障(例如,幀丢失和相機視圖丢失)是常見的。鑒于這些挑戰,研究強大的3D占用感覺具有重要價值。

然而,對強大的3D占用的研究受限,主要是由于資料集的稀缺。最近,ICRA 2024 RoboDrive 挑戰賽提供了不完美的場景,用于研究強大的3D占用感覺。我們認為,與穩健的鳥瞰視圖感覺相關的工作可能會激發對穩健占用感覺的研究。MBEV提出了随機遮罩和重構攝像頭視圖,以增強在各種缺失攝像頭情況下的穩健性。GKT利用粗略投影來實作穩健的鳥瞰視圖表示。在涉及自然損壞的大多數場景中,多模态模型通過多模态輸入的互補性,勝過單模态模型。此外,在3D LiDAR感覺中,Robo3D将知識從具有完整點雲的教師模型轉移到具有不完美輸入的學生模型,進而增強學生模型的穩健性。基于這些工作,接近穩健的3D占用感覺可能包括但不限于穩健資料表示、多模态、網絡架構和學習政策。

5.4. 廣義3D占用感覺

3D标簽是昂貴的,而且實際世界的大規模3D标注是不切實際的。目前在有限的3D标記資料集上訓練的現有網絡的泛化能力尚未得到廣泛研究。為了擺脫對3D标簽的依賴,自監督學習代表了通向廣義3D占用感覺的潛在路徑。它從廣泛的未标記圖像中學習占用感覺。然而,目前自監督占用感覺的性能很差。在 Occ3DnuScene 資料集上,自監督方法的最高準确度遠遠低于強監督方法。此外,目前的自監督方法需要更多的資料進行訓練和評估。是以,提高自監督廣義3D占用感覺是未來重要的研究方向。

此外,目前的3D占用感覺隻能識别一組預定義的對象類别,這限制了其泛化能力和實用性。最近在大語言模型(LLMs)和大視覺語言模型(LVLMs)中的進展顯示出了推理和視覺了解的有希望的能力。整合這些預訓練的大模型已被證明可以增強感覺的泛化能力。POP-3D利用強大的預訓練視覺語言模型訓練其網絡,并實作了開放詞彙的3D占用感覺。是以,我們認為采用LLMs和LVLMs是實作廣義3D占用感覺的挑戰和機遇。

本文對近年來自動駕駛中的3D占用感覺進行了全面調查。我們詳細審查和讨論了最先進的LiDAR中心、視覺中心和多模态感覺解決方案,并突出了該領域的資訊融合技術。為了促進進一步研究,提供了現有占用方法的詳細性能比較。最後,我們描述了一些可能激發未來幾年研究方向的開放挑戰。我們希望這項調查能使社群受益,支援自動駕駛的進一步發展,并幫助非專業讀者了解這一領域。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀