天天看点

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

标题:A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective

作者:Huaiyuan Xu, Junliang Chen, Shiyu Meng, Yi Wang, Lap-Pui Chau

机构:香港理工大学

原文链接:https://arxiv.org/abs/2405.05173

Github:https://github.com/HuaiyuanXu/3D-Occupancy-Perception

3D占用感知技术旨在观察和理解自动驾驶车辆的密集3D环境。由于其全面的感知能力,这项技术正在自动驾驶感知系统中崭露头角,并引起了行业和学术界的广泛关注。与传统的鸟瞰图(BEV)感知类似,3D占用感知具有多源输入的特性和信息融合的必要性。但是,不同之处在于它捕捉了2D BEV忽略的垂直结构。在这项调查中,我们回顾了关于3D占用感知的最新工作,并对具有不同输入模式的方法进行了深入分析。具体来说,我们总结了通用网络流程,突出了信息融合技术,并讨论了有效的网络训练。我们评估并分析了最先进技术在最流行数据集上的占用感知性能。此外,我们还讨论了挑战和未来研究方向。我们希望这份报告能激励社区,并鼓励更多关于3D占用感知的研究工作。此调查中的研究综述列表可在一个持续收集最新工作的活跃存储库中找到:https://github.com/HuaiyuanXu/3D-Occupancy-Perception。

2.1. 自动驾驶中的占用感知

自动驾驶可以提高城市交通效率,并降低能源消耗。对于可靠和安全的自动驾驶,一个至关重要的能力是准确和全面地理解周围环境,即感知观察到的世界。目前,鸟瞰视图(BEV)感知是主流的感知模式,具有绝对尺度和无遮挡描述环境的优势。BEV感知为多源信息融合(例如,来自不同视角、模态、传感器和时间序列的信息)提供了统一的表示空间,并提供了许多下游应用(例如,可解释的决策制定和运动规划)。然而,BEV感知不监视高度信息,因此无法为3D场景提供完整的表示。为了解决这个问题,占用感知被提出用于自动驾驶,以捕捉现实世界的密集3D结构。这种新兴的感知技术旨在推断用于体素化世界的每个体素的占用状态,其特点是对开放式目标、不规则形状的车辆和特殊道路结构具有很强的泛化能力。与透视视图和鸟瞰视图等2D视图相比,占用感知具有3D属性的本质,使其更适用于3D下游任务,如3D检测和分割。

在学术界和工业界,对整体3D场景理解的占用感知提出了有意义的影响。在学术考虑方面,从复杂的输入格式(包括多个传感器、模态和时间序列)中估计真实3D世界的密集体素占用是具有挑战性的。此外,进一步推理占用体素的语义类别、文本描述和运动状态对于对环境的更全面理解是有价值的。从工业角度看,每辆自动驾驶车辆上部署一个激光雷达套件是昂贵的。以相机作为激光雷达的廉价替代品,以视觉为中心的占用感知确实是一种成本效益高的解决方案,可以降低车辆设备制造成本。

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

2.2. 信息融合研究的动机

占用感知的要义在于理解完整和密集的3D场景,包括理解遮挡区域。然而,来自单个传感器(如2D图像或点云)的观察仅捕获场景的部分。图1直观地说明了图像或点云无法提供3D全景或密集环境扫描,导致场景感知不足。为此,研究从多个传感器和多个帧中融合信息将促进全面的占用感知。这是因为,一方面,信息融合扩展了空间感知范围,另一方面,它密集了场景观察。此外,在遮挡区域,整合多帧观察是有益的,因为同一场景被大量视点观察到,为遮挡推理提供了足够的场景特征。

此外,在动态户外场景中,自动驾驶车辆必须在不同的光照和天气条件下导航复杂环境,稳定的占用感知需求至关重要。感知的鲁棒性对于确保驾驶安全和效率至关重要。在这一点上,多模态融合的研究将促进鲁棒的占用感知,通过结合不同数据模态的优势。例如,激光雷达和雷达数据不受照明变化的影响,并可以感知场景的精确深度。这种能力在夜间驾驶或在阴影和耀斑可能遮挡关键信息的情况下尤为重要。相机数据在捕捉详细的视觉纹理方面表现出色,擅长识别远距离和基于颜色的环境元素,如道路标志、交通灯和车道标记。来自这些多种模态的数据的融合将呈现出环境的整体视图,同时抵御不利的环境变化。

2.3. 贡献

关于相关感知主题,3D语义分割和3D物体检测已经得到了广泛的审查。然而,这些任务并不便于对环境进行密集理解。BEV感知,解决了这个问题,也已经得到了彻底的审查。我们的调查重点是3D占用感知,捕捉了BEV感知忽视的环境高度信息。Roldao等人对室内和室外场景的3D场景完成进行了文献综述,这与我们的重点密切相关。与他们的工作不同,我们的调查专门针对自动驾驶场景进行了定制。此外,鉴于3D占用感知的多源性质,我们对该领域的信息融合技术进行了深入分析。本调查的主要贡献有三个方面:

• 我们系统地审查了自动驾驶领域中3D占用感知的最新研究,包括整体研究背景、其重要性的综合分析和相关技术的深入讨论。

• 我们提供了3D占用感知的分类法,并详细介绍了核心方法问题,包括网络管道、多源信息融合和有效的网络训练。

• 我们对3D占用感知进行了评估,并提供了详细的性能比较。此外,讨论了当前的限制和未来的研究方向。

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

最近的自动驾驶占用感知方法及其特点在表1中详细说明。该表详细说明了每种方法的出版场所、输入模态、网络设计、目标任务、网络训练和评估,以及开源状态。下面,我们根据输入数据的模态将占用感知方法分为三类。它们是LiDAR中心的占用感知、视觉中心的占用感知和多模态占用感知。随后,讨论了占用网络的训练及其损失函数。最后,介绍了利用占用感知的多样化下游应用。

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角
最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

4.1. 感知准确度

SemanticKITTI是首个针对户外驾驶场景具有3D占据标签的数据集。Occ3D-nuScenes是CVPR 2023年3D占据预测挑战赛中使用的数据集。这两个数据集目前是最受欢迎的。因此,我们总结了在这些数据集上训练和测试的各种3D占据方法的性能,如表3和4所述。这些表格进一步根据输入模态和监督学习类型组织占据方法。最佳性能已用粗体突出显示。表3利用IoU和mIoU指标评估3D几何和3D语义占用感知能力。表4采用mIoU和mIoU∗评估语义占用感知。与mIoU不同,mIoU∗指标排除了"其他"和"其他平坦"类,并由自监督OccNeRF使用。为了公平起见,我们计算了其他自监督占据方法的mIoU∗。值得注意的是,OccScore指标用于CVPR 2024年自主大挑战,但目前尚不普遍。因此,我们不使用此指标总结占据性能。接下来,我们将从三个方面比较感知准确度:总体比较,模态比较和监督比较。

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

(1) 总体比较。表3显示:(i) 占据网络的IoU分数低于50%,而mIoU分数低于30%。IoU分数(表示几何感知,即忽略语义)远远超过mIoU分数。这是因为对于某些语义类别来说,预测占据是具有挑战性的,例如自行车,摩托车,人,骑自行车者,骑摩托车者,杆和交通标志。这些类别中的每一个在数据集中的比例都很小(低于0.3%),它们在形状上的小尺寸使它们难以观察和检测。因此,如果这些类别的IOU分数低,它们会显着影响总体mIoU值。因为mIOU计算不考虑类别频率,它将所有类别的总IoU分数除以类别数。(ii) 较高的IoU并不保证较高的mIoU。一个可能的解释是,占据网络的语义感知能力(反映在mIoU中)和几何感知能力(反映在IoU中)是不同的,并且不是正相关的。从表4可以看出:(i) 占据网络的mIOU分数在50%以内,高于SemanticKITTI上的分数。例如,TPVFormer在SemanticKITTI上的mIOU为11.26%,但在Occ3D-nuScenes上为27.83%。类似地,OccFormer和SurroundOcc也是如此。我们认为这可能是因为Occ3D-nuScenes中有更准确的占据标签。SemanticKITTI根据激光雷达点云为每个体素进行标注,即根据体素内所有标记点的多数投票分配标签给体素。相比之下,Occ3D-nuScenes利用了一个复杂的标签生成过程,包括体素致密化,遮挡推理和图像引导体素细化。这种注释可以产生更精确和密集的3D占据标签。(ii) COTR在所有类别中都实现了最高的IoU分数。

(2) 模态比较。输入数据模态显著影响3D占据感知准确度。表3的"Mod."列报告了各种占据方法的输入模态。可以看出,由于激光雷达感知提供了准确的深度信息,激光雷达中心的占据方法具有更高的IoU和mIoU分数的更精确的感知。例如,S3CNet有最高的mIoU(29.53%),而DIFs实现了最高的IoU(58.90%)。我们观察到,这两种多模态方法并没有超过S3CNet和DIFs,表明它们没有充分利用多模态融合和输入数据的丰富性。多模态占据感知还有很大的改进空间。此外,尽管视觉中心的占据感知在近年来取得了快速发展,正如从表3中可以看出的那样,最先进的视觉中心的占据方法在IoU和mIoU方面仍然与激光雷达中心的方法存在差距。我们认为进一步改进视觉中心方法的深度估计是必要的。

(3) 监督比较。表4的"Sup."列概述了用于训练占据网络的监督学习类型。直接使用3D占据标签进行强监督训练是最普遍的类型。表4显示,基于强监督学习的占据网络实现了令人印象深刻的性能。FastOcc,FB-Occ,PanoOcc和COTR的mIoU分数明显较高(比弱监督或自监督方法提高了12.42%-38.24%的mIoU)。这是因为数据集提供的占据标签被精心注释,具有高精度,并且可以对网络训练施加强大的约束。然而,注释这些密集的占据标签是耗时且费力的。有必要探索基于弱或自监督的网络训练,以减少对占据标签的依赖。Vampire是基于弱监督学习的表现最佳的方法,实现了28.33%的mIoU分数。它表明语义激光雷达点云可以监督3D占据网络的训练。然而,收集和注释语义激光雷达点云是昂贵的。SelfOcc和OccNeRF是两种基于自监督学习的典型占据作品。它们利用体积渲染和光度一致性获取自监督信号,证明了网络可以学习3D占据感知而无需任何标签。然而,它们的性能仍然受限,SelfOcc 实现了7.97%的mIoU,OccNeRF 实现了10.81%的mIoU∗。

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

4.2. 推理速度

最近对3D占据感知的研究已经开始考虑不仅仅是感知准确度,还有其推理速度。根据FastOcc和FullySparse提供的数据,我们整理了3D占据方法的推理速度,并报告了它们的运行平台、输入图像大小、主干架构和在Occ3D-nuScenes数据集上的占据精度,如表5所示。实用的占据方法应具有高准确度(mIoU)和快速推理速度(FPS)。从表5可以看出,FastOcc 实现了较高的mIoU(40.75%),与BEVFomer的mIOU相当。值得注意的是,FastOcc 在性能较低的GPU平台上具有更高的FPS值,而BEVFomer。此外,在通过TensorRT [132] 加速之后,FastOcc的推理速度达到了12.8Hz。

最新最全总结!自动驾驶Occupancy感知综述:信息融合视角

5.1. 自动驾驶中的基于占用的应用

3D占用感知实现了对3D世界的全面理解,并支持自动驾驶中的各种任务。现有的基于占用的应用包括分割、检测、流预测和规划。

(1) 分割:语义占用感知基本上可以看作是一个3D语义分割任务。(2) 检测:OccupancyM3D和 SOGDet是两个基于占用的工作,用于实现3D物体检测。OccupancyM3D 首先学习占用以增强3D特征,然后用于3D检测。SOGDet 开发了两个并行任务:语义占用预测和3D物体检测,同时训练这些任务以相互增强。(3) 流预测:Cam4DOcc从占用的视角预测3D空间中的前景流,并实现对周围3D环境变化的理解。(4) 规划:OccNet将物理3D场景量化为语义占用,并训练一个共享的占用描述符。这个描述符被馈送到各种任务头中以实现驾驶任务。例如,运动规划头部为自车输出规划轨迹。然而,现有的基于占用的应用主要集中在感知层面,较少涉及决策层面。鉴于3D占用与3D物理世界的一致性比其他感知方式(例如,鸟瞰视图感知和透视视图感知)更高,我们相信3D占用在自动驾驶中具有更广泛的应用机会。在感知层面,它可以提高现有轨迹预测、3D物体跟踪和3D车道线检测的准确性。在决策层面,它可以帮助更安全的驾驶决策,并为驾驶行为提供3D可解释性。

5.2. 部署效率

对于复杂的3D场景,总是需要处理和分析大量的点云数据或多视图视觉信息,以提取和更新占用状态信息。为了实现自动驾驶应用的实时性能,解决方案通常需要在有限的时间内完成计算,并且需要具有高效的数据结构和算法设计。总的来说,在目标边缘设备上部署深度学习算法并不是一件容易的事情。

目前,已经尝试了一些关于占用任务的实时努力。例如, FastOcc通过调整输入分辨率、视图变换模块和预测头来加速预测推理速度。SparseOcc是一种没有任何密集3D特征的稀疏占用网络,以最小化基于稀疏卷积层和掩码引导稀疏采样的计算成本。唐等人提出采用稀疏潜在表示而不是TPV表示和稀疏插值操作,以避免信息丢失和降低计算复杂性。然而,上述方法仍然距离自动驾驶系统的实时部署有一段距离。

5.3. 强大的3D占用感知

在动态和不可预测的现实世界驾驶环境中,感知的鲁棒性对于自动驾驶车辆的安全至关重要。最先进的3D占用模型可能对超出分布范围的场景和数据(例如,光照和天气的变化)脆弱,这些变化会引入视觉偏差,以及由车辆运动引起的输入图像模糊。此外,传感器故障(例如,帧丢失和相机视图丢失)是常见的。鉴于这些挑战,研究强大的3D占用感知具有重要价值。

然而,对强大的3D占用的研究受限,主要是由于数据集的稀缺。最近,ICRA 2024 RoboDrive 挑战赛提供了不完美的场景,用于研究强大的3D占用感知。我们认为,与稳健的鸟瞰视图感知相关的工作可能会激发对稳健占用感知的研究。MBEV提出了随机遮罩和重构摄像头视图,以增强在各种缺失摄像头情况下的稳健性。GKT利用粗略投影来实现稳健的鸟瞰视图表示。在涉及自然损坏的大多数场景中,多模态模型通过多模态输入的互补性,胜过单模态模型。此外,在3D LiDAR感知中,Robo3D将知识从具有完整点云的教师模型转移到具有不完美输入的学生模型,从而增强学生模型的稳健性。基于这些工作,接近稳健的3D占用感知可能包括但不限于稳健数据表示、多模态、网络架构和学习策略。

5.4. 广义3D占用感知

3D标签是昂贵的,而且实际世界的大规模3D标注是不切实际的。目前在有限的3D标记数据集上训练的现有网络的泛化能力尚未得到广泛研究。为了摆脱对3D标签的依赖,自监督学习代表了通向广义3D占用感知的潜在路径。它从广泛的未标记图像中学习占用感知。然而,当前自监督占用感知的性能很差。在 Occ3DnuScene 数据集上,自监督方法的最高准确度远远低于强监督方法。此外,当前的自监督方法需要更多的数据进行训练和评估。因此,提高自监督广义3D占用感知是未来重要的研究方向。

此外,当前的3D占用感知只能识别一组预定义的对象类别,这限制了其泛化能力和实用性。最近在大语言模型(LLMs)和大视觉语言模型(LVLMs)中的进展显示出了推理和视觉理解的有希望的能力。整合这些预训练的大模型已被证明可以增强感知的泛化能力。POP-3D利用强大的预训练视觉语言模型训练其网络,并实现了开放词汇的3D占用感知。因此,我们认为采用LLMs和LVLMs是实现广义3D占用感知的挑战和机遇。

本文对近年来自动驾驶中的3D占用感知进行了全面调查。我们详细审查和讨论了最先进的LiDAR中心、视觉中心和多模态感知解决方案,并突出了该领域的信息融合技术。为了促进进一步研究,提供了现有占用方法的详细性能比较。最后,我们描述了一些可能激发未来几年研究方向的开放挑战。我们希望这项调查能使社区受益,支持自动驾驶的进一步发展,并帮助非专业读者了解这一领域。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读