天天看点

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

作者:报告派

报告出品方:申万宏源

以下为报告原文节选

------

1. 智能驾驶:端到端的算法新范式

1.1 AI感知:机器人+驾驶+具身智能的智能化曾都卡在这里

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

1.2 AI感知:以毫末智行为例,中美简单对比

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

1.3 自动驾驶:大模型AI对感知和标注的改造

强化感知:空间-时序维度,多模态数据融合

• 在2021 TESLA AI DAY将引入Transformer进行大规模的无监督学习。2022年后国内公司跟进。

• 特斯拉从安装在汽车周围的八个摄像头的视频中用传统的ResNet提取图像特征,并使用Transformer、CNN、3D卷积中的一种或者多种组合完成跨时间的图像融合,实现基于2D图像形成具有3D信息输出。

• 毫末智行的AI团队正在逐步将基于Transformer的感知算法应用到实际的道路感知问题,如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。

数据标注升级:大模型无标注自监督学习

• 先统一所有感知任务的backbone,再使用以无标注数据为主的数据,对大模型进行预训练,使大模型获得能够使用无标注数据训练的能力。这里同样使用了大模型并行计算的能力。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

自动驾驶:大模型的BEV transformer重要

BEV的通俗理解:把不同视角的观察合成一个“天眼模式”整体图,了解全局

传统驾驶算法下,时序信息很难与已有3D目标检测融合

• 3D BEV优势:1)将不同视角在 BEV 下统一,方便后续规划控制模块任务;2)BEV 下的物体没有图像视角下的尺度(scale)和遮挡(occlusion)问题;

• 时序信息:自动驾驶感知任务重要,但现阶段基于视觉的 3D 目标检测方法并没有很好的利用;n BEVformer:基于Transformer的自动驾驶BEV纯视觉感知

• BEVFormer的两大核心任务:mutil-camera(多视角相机) 和 bird- eye-view(鸟瞰图)BEV

• BEVFormer利用了Transformer的特征提取能力以及Timestamp结构的时序特征的查询映射能力,在时间维度和空间维度对两个模态的特征信息进行聚合,增强整体感知系统的检测效果。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

自动驾驶: BEV transformer

BEV的通俗理解:把不同视角的观察合成一个“天眼模式”整体图,了解全局。

Pre-BEV特征提取(如果输入特征提取的是3D信息,得到3D BEV,压缩到2D BEV)。

• 3D坐标离散化到体素空间(高效率)+3D卷积提取特征+3D特征高度压缩变成2D BEV特征;

• 体素稀疏、不规则、3D卷积计算量大,落地困难。

Post-BEV特征提取(如果输入特征提取数据是BEV信息)。

• 先将3D的点云转化为BEV表示,然后再使用2D卷积等方式提取BEV特征。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

1.4 AI感知:NeRF(神经辐射场)-大模型和自动驾驶的交集

NeRF,即Neural Radiance Fields(神经辐射场)。其通俗理解:给予海量不同视角的二维图,合成同一场景不同视角下的图像。

• 还可以通俗理解为X-Y-Z到三维极坐标的转化,第三视角到第一视角的转化。

辐射场:

• 如果我们从一个角度向一个静态空间发射一条射线,我们可以查询到这条射线在空间中每个点 (x,y,z) 的密度 ρ ,以及该位置在射线角度 (θ, φ) 下呈现出来的颜色 c ( c=(R,G,B) )。

• 即 F(x,y,z, θ, φ)→(R,G,B, ρ) 。密度是用来计算权重的,对点上的颜色做加权求和就可以呈现像素颜色。

• 给定F(x,y,z, θ, φ)直接查表获得RGB值和密度,给体渲染方法。

训练:

• 用Tensor输入5D数据(三个位置,两个角度);

• 得到颜色和密度;

• 端到端训练,把原图和训练结果的损失做梯度回传。

体渲染:

• 对上述辐射场的密度和颜色做积分,就可以得到像素的颜色。

• 遍历所有像素,这个视角下的图像就渲染出来了。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

AI感知+预测:Occupancy Network占用网络

Occupancy Network的通俗理解:两维的鸟瞰BEV,变为三维的鸟瞰。而增加运动序列预测。

2022CVPR放大的占用网络

• 2022 CVPR中,Tesla FSD新负责人 Ashok Elluswamy 推出了Occupancy Network。借鉴了机器人领域常用的思想,基于occupancy grid mapping,是一种简单形式的在线3D重建。

• 将世界划分为一系列网格单元,然后定义哪个单元被占用,哪个单元是空闲的(考虑速度、预测轨迹等)。通过预测3D空间中的占据概率来获得一种简单的3d空间表示。关键词是3D、使用占据概率而非检测、多视角。

对BEV鸟瞰图的加强和改进

• 首先是纯视觉+AI+大模型路线,国内更可能用传感器路线;

• BEV感知:高水平视觉为主的自动驾驶方案的起点;

• 占用网络Occupancy Network:纯视觉自动驾驶技术的里程碑(CVPR 2022)。

优势有哪些?泛化,2D变3D,像素变体素

• 2D BEV栅格变成3D栅格,高度方向又增加了一个维度变成了3D栅格;

• 借鉴了NeRF(输出3D栅格特征和栅格流,增加语义输出和速度信息,可以变分辨率聚焦);

• 体现了泛化,可以识别之前未知物。

• 体现了语义感知,超过雷达。

1.5 从AI感知,到端到端(感知+预测+规划+控制):CVPR2023

1)在Backbone环节特征提取,其中涉及BEV和多模态等大模型技术。

• 将一系列多相机图像输入特征提取器,并将生成的特征通过 BEVFormer 中的现成 BEV 编码器转换为统一鸟瞰图 (BEV) 特征 。

• UniAD 可利用其他替代方案通过长期时间融合或多模态融合 。

2)在感知环节

• 目标检测与跟踪模块可以实现对动态元素的特征提取、帧间物体跟踪。

• MapFormer 将map queries作为道路元素(例如,车道和分隔线)的语义抽象(semantic abstractions),并对地图进行全景分割。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

AI端到端:CVPR2023的启发

3)预测模块,实现动静态元素交互与长时序轨迹预测,而且已经有“联合训练AI”。

• 由于每个单元的动作都会显着影响场景中的其他,因此该模块对所有考虑的单元进行联合预测。

4)在规划模块,基于轨迹预测,做防碰撞,其中涉及占用网络(Occupancy network)等大模型技术。

• 基于自身的轨迹预测和基于占据栅格的碰撞优化并使自己远离 OccFormer 预测的占用区域(occupied regions)以避免碰撞。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

2. 视觉泛化:大模型带来何种改变

2.1 大模型能带来视觉底层能力怎样的迭代?

大模型+自动驾驶,实际并未使用到视觉泛化能力

• 3D占据栅格网络:主要预测了空间中点被占据的概率,并未识别出三维物体是什么;

• 大模型主要改变了自动驾驶工作范式。

然而在机器人工作中,需要识别出具体物体是什么

• 小模型时代,特征提取+梯度下降训练;

• 在特定领域已经非常成熟,如:人脸识别;

• 但是,区分物体是什么有难度,泛化能力欠缺。

视觉大模型相对于传统的小型模型,具有以下的优缺点

• 更高的准确性:视觉大模型一般具有千万级别或更多参数,相比小型模型具有更强大的表示能力,因此可以更好地捕捉图像中的细节和特征,从而提高模型的准确性。

• 更强的泛化能力:视觉大模型在训练过程中可以学习到更多的特征,因此具有更好的泛化能力,可以适应更多的场景和数据分布。

• Few shot/Zero shot下的CV能力:图像分类、语义分割、目标检测、实例分割、物体追踪。

最终可能通过跨模态,实现Zero shot。

2.2 AI感知的“泛化”理解:VIT将Transformer引入CV任务

在CV领域,为何基于传统CNN+大参数的思路遇到瓶颈?

• 从算子层面看,传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力;

• 从结构层面看,传统 CNNs 结构缺乏先进组件。

Transformer + CV,提升了视觉模型参数上限

• 2021年后,随着vit、Swin transformer、MAE等论文推出,transformer在CV和跨模态等应用增加。

• 2021年3月,google将尝试将自注意力机制和transformer直接应用在图像领域。

• 基于ViT 和 Swin Transformer 等方法,首次将CV模型扩大到20亿和30亿参数级别。

• 其单模型在 ImageNet 数据集的分类准确率也都突破了 90%,远超传统 CNN 网络和小规模模型,突破了技术瓶颈。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

2.3 AI感知的“泛化”理解:META SAM

提出Segment Anything (SAM)项目

• 用一个基础大模型,可以实现Zero-shot下的通用分割能力,基本涵盖了分割的各个子领域。即,CV中某个重要领域的通用模型出现了。

• 零样本(zero-shot)或者简单prompt(比如一个点,下图中绿点、线框,或者一小段文字)下,就对任意图片进行分割。

一个用于图像分割的新任务、模型和数据集。

• 1)10亿+掩码:在数据收集循环中使用高效模型,构建了迄今为止(到目前为止)最大的分割数据集,在1100万张授权和尊重隐私的图像上有超过10亿个掩码。

• 2)将发布SAM模型和数据集。数据集(SA-1B),其中包含1B个掩码和1100万张图像,以促进对计算机视觉基础模型的研究。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化
机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

2.4 AI感知的“泛化”理解:META dinoV2

Dino V2的三个重要功能

• 深度估计、语义分割、目标检索;暂时无法做到实例分割,实例分割=目标检+语义分割。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

• 数据集:1.42亿,没有文字标签,但是图片特征相似模型参数量是 10 亿级,也仍然是视觉Transformer 架构(ViT),但与 DINO 不太一样的是,这次 DINOv2 在数据集上经过了精心挑选。

• DINOv2 构建了一个数据筛选 pipeline,将内容相似的图片筛选出来,同时排除掉相同的图片。

机器人行业报告:大模型迭代,智能驾驶、机器人算法进化

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派

科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |

继续阅读