三十二.智能驾驶之多传感器融合技术: MV3D融合方法

2023-07-15 01:08:32

MV3D(Muti-view 3D Object Detection)是将3D点云和相机RGB图像在数据级进行前融合的技术,其输入的传感器数据包括:

点云鸟瞰图(Bird eye View)
点云前视图(Front View)
车载前视相机RGB图像(Front Camera)

学习过基于点云的语义分割网络的都知道,点云数据存在无序性,稀疏性和直接3D卷积计算量过大的特点.所以一般在将点云输入网络之前,都会将点云数据投射到特定的二维平面,比如:鸟瞰图或前视图. 然后采用基于笛卡尔坐标系(如百度Apollo的cnn_seg)或极坐标系(如PolarNet)对二维平面映射进行网格分割,最后按照二维图像卷积网络来提取特征. MV3D的提出早于这些新技术,但也是基于这种方法.

MV3D的网络结构图如下(图片来源于网络):

三十二.智能驾驶之多传感器融合技术: MV3D融合方法

MV3D的过程大致如下:

一. 对输入的点云鸟瞰图二维映射图(高度图,密度图和强度图),经过一个称为3D Proposal Network的网络(类似两阶于物体检测网络Faster RCNN中的RPN),经提取特征(骨干网络VGG-16)并生成目标物体的3维边框,并把这种3维边框候选框共享给点云前视映射图分支和相机RGB分支. 同时生成基于鸟瞰映射图的ROI;

二. 对点云的前视映射图提取特征并利用鸟瞰映射图分支共享的3维候选框,生成前视映射图分支的ROI;

三, 对前视相机RGB图像提取取特征并利用鸟瞰映射图分支共享的3维候选框,生成前视RGB图像支的ROI;

四. 对三个分支生成ROI(利用ROI Pooling),利用Region-based Fusion Network进行融合, 融合方式上采用基于逐点均值运算的深度融合方式.

五. 与两阶物体检测网络Faster RCNN类似,最后对深度融合后的目标进行分类得到物体类别,对3维候选框进行回归得到每个物体的3维边框. (注: MV3D预测的目标物体3维边界框采用8个顶点3维坐标(x,y,z)表示,即一个预测框需要3x8共24个值.)

总结,MV3D在技术上目前来看虽有写过时,但偌借鉴其思想将目前最新的点云语义分割和检测网络技术融入其中,也是一种新的尝试.

三十二.智能驾驶之多传感器融合技术: MV3D融合方法

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络