天天看点

号称“单芯片运行L4级自动驾驶”,安霸如何做到?

声明:本文转自焉知新能源汽车。转载仅是为了分享信息,不代表《九章智驾》赞同其观点。

近日,安霸发布了一款最新的AI 域控制器芯片 CV3,这是一款针对自动驾驶专用的 SoC,「5nm、500 eTOPS、单芯片运行 L4」则是这款芯片的特点。

这里面有几个问题可以解答一下:

安霸是谁?

500 eTOPS 是什么意思?

单芯片和多芯片的区别是什么?

安霸的芯片优势在哪?

01 认识「安霸」

安霸(Ambarella) 2004 年成立于美国硅谷,是一家半导体芯片设计公司,安霸主要为行业提供低功耗、高清视频压缩与图像处理的解决方案,生产用于运动相机、便携式穿戴相机、安防摄像机、无人机摄像机和其他设备的图像处理SoC(片上系统)。

比如,GoPro 运动相机、小蚁运动相机、大疆无人机都有安霸的身影。

正因为有这样的优势,安霸也在积极布局汽车市场的业务,在2015 年收购的意大利自动驾驶研发企业 VisLab,该公司从事双目立体视觉感知系统开发。

号称“单芯片运行L4级自动驾驶”,安霸如何做到?

通过在技术上结合双方的长处,安霸后续研发出了全新的计算机视觉芯片架构CVflow。

这一架构不同于CPU、GPU 以及 FPGA,其对运行神经网络进行了特殊的优化,能够实现多种多样的计算机视觉功能。

基于CVflow 架构打造的视觉芯片:

2018 年 CES 展推出视觉芯片 CV1:采用三星 14nm CMOS 制程工艺,满足包括 ADAS、电子后视镜和环视影像在内的功能需求。

2018 年第一季度推出 CV2 和 CV22:这是两颗集成了 CNN、DNN 技术和 10nm 制程的芯片,面向 ADAS 和自动驾驶市场。

2020 年 CES 展推出全新的 CV2FS 和 CV22FS:芯片采用 10nm 制程,能以每秒 30 帧对 800 万像素或更高分辨率的视频进行计算机视觉处理,实现远距离和精准的目标识别。

安霸中国区总经理冯羽涛总向我们表达了,安霸依然是AI 芯片公司,算法上的优势可以更好的服务客户,不过,安霸不会做算法的生意。

02 对标英伟达 Orin 的 CV3

CV 系列是安霸针对智能应用及智能驾驶推出的产品,其中 CV2 已经实现了汽车前装量产,但随着智能驾驶向高阶能力进化,高性能芯片的需求也在加大,因此,在英伟达、华为、高通等公司纷纷推出高性能产品之后,安霸在 2022 年的开端也带来了一款「芯」产品 —— CV3。

号称“单芯片运行L4级自动驾驶”,安霸如何做到?

看看CV3 的参数信息:

采用5nm 低功耗制程工艺;

AI 处理性能算力高达 500 eTOPS;

CV3 搭载 16 个 Arm Cortex-A78AE CPU 内核,16 个核心分为 4 个集群,每个集群有 4 个核心;

支持摄像头、毫米波雷达、激光雷达,多传感器融合;

可运行ADAS 和 L2+ 至 L4 级自动驾驶系统。

注意,CV3 域控制器芯片是一个系列,不是一颗芯片。上面所公布的参数是首发的高端旗舰芯片。安霸表示,在后续会陆续推出整个系列,从高到低推出。

现推出这个系列里的旗舰版,然后根据客户的具体需求进行裁剪,裁剪后可以有效降低成本,而且最高性能版往往技术要求也高,先推出则意味着技术和测试流程的跑通。

这里面可以看到一个问题,那就是CV3 的算力,CV3 的神经网络矢量处理器(NVP)等效算力能够达到 500 eTOPS。

号称“单芯片运行L4级自动驾驶”,安霸如何做到?

怎么实现的呢?有几点:

第一,在旗舰版CV3 - HIGH的芯片框图里可看到,CV3 和 CV2 系列有很多共通的地方,区别在于,CV2 系列的 CPU 使用的是 4个 A53核心,A53 属于低功耗的 Arm 核,但算力就没有那么高;

而CV3使用了16个A78AE核心,A78AE是Arm 新推出的内核,并且是针对汽车领域专门设计的带有功能安全、高性能的核。这16 个核心分为 4 个集群,每个集群有 4 个核心,采用这样的核心设计,是为了分类计算满足车企的不同需求。

第二,优化后的神经网络加速引擎,从性能角度来讲,其实就是多少个T 的算力用多少瓦的功耗来实现,这个能效比是非常重要的。只要你的摄像头输入是完全一样的,最终就看他跑多快,也就是看每秒跑多少帧的算法。

CV3 的等效算力可以做到 500 T,这个核心是安霸的算法能力,这在下面我们会详细讲。

号称“单芯片运行L4级自动驾驶”,安霸如何做到?

在CV3 的架构中还集成了其他单元:

通用矢量处理器(GVP),其性能能够达到 920 GOPS;

GPU 单元,用于处理车辆环视摄像头3D渲染;

CV3芯片中还集成了 ISP、视频编码、硬件安全单元以及丰富的接口管理。

在CV3 中,NVP 主要用于神经网络计算,GVP 适用于浮点运算,并用于处理传统计算机视觉和毫米波雷达数据,二者在自动驾驶中会发挥不同的作用。

CV3 的框架有了,怎么样用 CV3 这颗单芯片来搭建整个自动驾驶系统呢?

冯羽涛表示,这套硬件非常利于用户拓展:

一、丰富的传感器架构

这颗CV3 单芯片可以接入多达 20 个摄像头,同时可以接激光雷达、毫米波雷达、超声波雷达等传感器,只需单颗芯片即可处理全套传感器,如典型的L2+ 自动驾驶传感器配置(例如 10 路摄像头、5 路毫米波雷达及大量超声波雷达)。

此外,CV3 芯片带有双目立体视觉引擎和稠密光流引擎可提供范围更广的深度检测和运动感知。

二、感知数据的融合

多种传感器在感知层面的深度融合,包括物体的检测、物体的分类、画面的分割等,所有这些自动驾驶经过传感器感知之后,深度融合的计算也完全可以在这颗芯片上完成。

在这之后是规划和控制,包括辅助驾驶、自动驾驶很多功能也可以完全在这颗芯片上完成。

这个图是示意图,搭建从L2+ 到 L4,取决于每一家公司的研发路径、落地的场景,还有它对性能以及成本的需求。可以灵活地使用 CV3 这颗芯片,但是单一芯片已经完全可以处理所有的运算,如果说要做到严格的冗余的要求,可以用两颗,做完全一样的处理。

号称“单芯片运行L4级自动驾驶”,安霸如何做到?

总结一下,新款中央域控制器芯片CV3 系列关键特征:

内置GPU 用于 3D 环视渲染;

支持不同域安全隔离和软件信息安全部署的HSM(硬件级安全);

超高带宽低延迟的PCIe 接口;

为OTA 软件在线升级和影子模式数据采集预留性能冗余。

其实核心就是,安霸通过对CV3 架构上的新一代 CVflow 实现了基于单芯片就可以实现大算力的能力,并且单芯片就可以运行 L4 级别自动驾驶。安霸在硬件层面实现高性能,同时用算法能力来达到感知能力的提升。

03 CV3 隐藏的技能是「算法优先」

安霸发布了CV3 后,焉知汽车有幸采访到了「安霸中国区总经理冯羽涛」以及「安霸中国区市场营销副总裁郄建军」,他们从市场、性能、感知融合、算法能力等多个角度来解答了 CV3 的细节。

以下是采访实录:

1. 提问:1)安霸如何看待 4D 毫米波雷达当下的发展态势?CV3 如何帮助毫米波雷达信号、激光雷达、摄像头之间的感知融合?

2)安霸对自动驾驶的发展有怎样的判断?在产品设计上,又是如何去匹配这样的发展趋势,这次用了 16 个 Arm Cortex-A78AE CPU 内核,大概是目前最强配置的智能车芯片,是出于怎样的设计需求呢?

郄建军:4D 成像毫米波雷达这两年成为市场热点。车载的普通毫米波雷达逐步升级到 4D 成像雷达,趋势非常明显。

对傲酷来说,我们主要用非常独特的算法方式,只需要用和普通毫米波雷达类似的简单硬件,就可以做成非常高性能的4D 成像雷达。

傲酷加盟了安霸,4D 成像雷达算法植入安霸芯片,雷达性能有大幅提升,和视觉也可以做深度前融合。

做4D 成像雷达,如果纯靠硬件的方式,增加更多天线,有很多局限。而我们这种用算法的方式做,想象空间就非常大。

比如,我们用一个普通角雷达的硬件可以做到高分辨率的4D 成像角雷达,实现在 120 度 FOV 下达到 1 度角分辨率等这些高性能指标。在芯片层面上,4D 成像算法加上 CV3 很高的处理能力,可以把 4D 成像雷达性能做得非常高。

在视觉和雷达的融合方面,一般做法都是后融合或者目标级的融合。而在CV3 芯片里就可以做前融合,也就是视觉的像素和雷达的点云做原始数据级的融合。这种融合会使感知的整体性能包括置信度大幅度提升,误检率、漏检率大幅度下降等等。所以我们在 CV3 里,把 4D 雷达算法做进去以后,会让 4D 雷达性能大幅度提升。

4D 雷达和视觉前融合以后,整体性能可以做到类似低线束激光雷达的效果。在某种程度上可以取代低线束激光雷达。傲酷并入安霸后,双方又在芯片层面做数据前融合。

冯羽涛:很多家公司因为它落地场景不一样,对成本要求不一样,会采取非常不一样的路径。

安霸作为芯片供应商,是希望能够服务于所有的这些自动驾驶厂商。所以我们对自动驾驶的判断就会有多种发展路径,多传感器感知融合,这也是CV3 的设计思路。

为什么我们放16 个 Arm Cortex-A78AE,到底出于什么样的考量和设计需求呢?

第一个CV2 系列里,都是放的 4核 A53,我们在做客户项目过程中,经常会遇到说Arm性能不太够的,因为这是发展路径问题,有很多的做自动驾驶的公司,它的算法里是有神经网络的 AI 算法加上传统算法。

并不是所有的厂家都这样,有很多厂家是全面拥抱神经网络,那它就没有这个问题,但也会有不少厂家他还需要一定的传统算法和算力,所以我们决定增加Arm 的 CPU 的性能,但是为什么一下子加 16 个呢?

还有一点,这16 个 Arm 的 A78 分成四个集群,每一个集群是四个核,这 16 个 是 4×4 的配置,我们第一颗推出的叫 CV3 – HIGH 旗舰版,这里边我们认为当 4 个集群一共 16 个核,Arm 性能肯定是够的,但是将来也许真正落地的时候,并不需要这么多,所以对我们来讲其实很简单,我们在第一款 HIGH 旗舰产品,我们把最高的全都验证好,把软件各种方面工具全都做好。

在后面我们将会推出的偏低端一些的CV3 系列的时候,很简单我们可以拿掉两个或者拿掉三个。

从设计的考量来说还有一点,我们放四个集群,是针对像L4级别的自动驾驶,可以很简单地把不同的 Arm 核集群用在不同的专注方向上,比如说用一个四核集群来做安全域,拿一个集群来负责神经网络以及视觉感知,还可以再跑一个集群用在融合方面。

这样的布局可以使得软件的开发相对独立,从整个系统来讲,可以用不同核的集群来控制不同的功能,也可以作为冗余来考虑。这是我们第一颗CV3 用 16 颗 Arm 核的原因。

提问:「算法优先」和软件定义硬件,或者软件定义汽车理念有哪些共通性?又有哪些不同?安霸如何看软件定义汽车的后续发展?会如何应对?

冯羽涛:这里就看算法和软件的定义是什么?我们经常在跟客户沟通的时候说,算法和软件可以统称为软件,算法转换成软件是一行一行的代码。不同的人写软件,同样的算法写出来软件代码会不同。

所以我觉得软件和算法深抠的话还是有很大不同的。但是本质上来讲,算法最重要是跑在一个芯片上,跑在一个系统上,它最终要变成一个软件去跑,从这个角度来讲,实际上大家都在讲同一件事情。

但安霸是因为更注重背后的算法是什么,然后再去考虑怎样用软件去实现它。所以我们的说法可能是更加根本性一点,有点像去做一件产品,但是在工程落地之前,要先把它最根本的物理原理理解清楚,再去寻找最合适的工程方法,把它变成产品落地。

「算法优先」更多的是强调它背后的原理,软件是把算法变成具体实现的代码,软件定义还是算法定义本质上还是说得同样一件事。

郄建军:大家都知道人工智能的算法更新的非常快。最新的Transformer 最近很流行,未来会有更多的算法陆续会出来。我们做芯片过程中,要充分考虑到各种各样的算法,包括未来新的算法出来后今天的芯片如何支持。

不能说今天的算法好用,明天的算法就不能用了,或者不好用了。我们CV3 芯片上跑过几百种、上千种市场上通用的开源算法,也包括我们自己的 VisLab 算法,也包括我们一些客户的算法,在这个基础上,再优化芯片设计。

整个芯片是围着算法去优化的,而且都是通用型算法。不是某一个算法行,剩下算法就不行。这也是「算法优先」的重要理念或者说内涵,就是为算法去优化芯片,芯片为算法服务。

冯羽涛:是的,因为一颗芯片的研发周期是非常长的,我们做CV3,很早就开始考虑架构,中间就包括分析各种外界算法,同时还要想办法尽量地去预测后面几年会不会有新的算法出来,我的芯片还能不能适应?这点是非常重要,对任何的芯片公司,都得提前很多进行规划,不要等新的芯片设计周期完成、芯片推出的时候,外面的算法已经更新了,你的芯片已经不适应了。

提问:当前,多传感器融合已经成为了高阶自动驾驶感知系统的主要趋势,在这个背景之下,您认为芯片厂商面临着哪些机遇?作为AI视觉芯片技术公司,安霸的核心竞争是什么?

冯羽涛:我们对自动驾驶的分析虽然是多传感器融合感知都必须有,但视觉是最重要的,视觉首先它的信息量最密,其次它是人类驾驶汽车最重要的传感器,因为人主要是靠视觉来开车,还有很小一部分用的听觉。

因为所有的道路标志都是为了人的视觉感知,可见光这个波段能看到的东西设置的,包括路标、所有的交通标志都是针对人的视觉(来设计),必须让人能够看得清。

在这个前提下,换成机器来开车,视觉是最最重要的一个感知手段,这是现在没有任何做自动驾驶的公司会否认,虽然有些公司说以后建立V2X,通过车联网,物联网,但是那个还要花很多年,还要进行大量的建设以及人开的车占的比例非常少才能实现。

在现在这个阶段视觉是最主要的,而视觉处理这方面的技术和芯片又是安霸从成立开始就专注的,这是安霸核心竞争力。

作为芯片公司最大的挑战是,如何通过一个新平台适应这么多不同的需求,同时又要兼顾功耗和成本。

做一颗超高算力的芯片,只要拼很多的核放进去,理论上一样可以出很高算力的芯片。但是很难落地,因为真正应用的时候,当你把所有算力、核跑起来,会遇到很多其它瓶颈,不光是有多少核,每个核可以处理多少次运算,不是这么简单。

安霸从17 年前成立,就一直做 SoC,我们 SoC 里一直会有多个计算单元,做不同的处理,兼顾所有的性能、成本、功耗,这个都是我们的优势。同时我们对自动驾驶系统趋势的判断,只要我们一直延续我们「算法优先」的理念,做最适合落地的综合性的 SoC 的话,我们还是有竞争力的。

郄建军:刚才说多传感器融合在往高阶的方向走,本质上来说以后的传感器融合可能都会向原始数据集的前融合去发展。

视觉方面,比如业界知名的公司提出来用每个像素点的原始数据来做深度学习,并重写底层的神经网络,性能又得到很大提升。从这里已经可以看出来一个重要趋势,就是每个传感器都在往原始数据集的分析、学习和融合这个方向走。

我们在CV3 芯片里做了 4D 成像雷达和视觉的原始数据集的融合。

具体来说,4D 成像雷达的大量原始点云,和高清视频大量像素点去做前融合。融合不仅是目标级融合,而是在原始数据集里的点云集和像素集的融合。

这样做的话,第一个处理的数据量非常大,第二要算得非常快,第三要点云和像素对得非常准,时空同步要同步得非常好。这些做起来都有非常大的挑战,你能做到这个的话,性能就会非常好。我们希望CV3 把这些一次都做到位。

除了雷视前融合外,还会有激光雷达的前融合,也会在原始数据集层面做融合,这是CV3 很大的特点。

提问:能给我们介绍一下安霸CV3 系列域控制器 SoC 的架构吗,它可以同时做训练和推理吗?

冯羽涛:CV3 的设计跟 CV2 系列一样,我们是瞄准推理,设计目标没有去做训练。但实际上你如果硬要把芯片拿来做训练,不是不能用,但这个芯片有很多其它东西你可能用不上,如果用它的高算力来做训练,可能从成本考量不是最优了,它不是不能,只是我们的设计目标是做推理。

提问:刚刚提到的首发高性能、高算力的芯片后,后续大概会在什么时间节点推出面向中低端的产品?

冯羽涛:因为在旗舰版推出以后,我们寻找最合适的合作伙伴进行开发,开发过程中,同时会了解市场需求,现在这颗500T,16 核 Arm 高算力芯片,如果想切割一下,做一颗小一些的,其实做到哪个级别都很容易,技术上不是非常难,因为我们已经把第一颗做好了。

目前是500T 的算力,下一颗出 200T,还是出 100T 还是出 50T,我们目前并没有完全确定的答案,我们需要跟市场、跟客户进行沟通和合作。

郄建军:一般公司的芯片算力都是从下逐步往上做,我们的做法是一开始推出目前技术条件下最高算力的,然后根据市场需求,再裁剪出来较低算力的芯片系列组合。这也是为最好地去满足市场需求的。

不是算力越高越好,算力要正好满足应用需求。比如你是做L2 行泊一体,还是说自动驾驶的 L4,大家的应用需求都不太一样。我们希望通过超大算力 500T 的芯片及其系列产品,去满足那个市场的需求。技术上首先让指标达到最高,但真的落地的时候,后续系列产品组合要正好跟各应用层级要求非常匹配。

我们会不断了解中国市场客户的多样化需求,需要什么样的性能指标,反馈给产品部,再推出具体的系列产品计划。

提问:如何看待目前传感器融合中的痛点,目前很多传感器在节点端就已经提供了强大的算力,以减少对于域控制计算的压力。CV3 的算力这么高,是不是可以直接 Raw Data?还有 eTOPS 中的 e 是什么意思?

冯羽涛:从技术探讨角度,今天这个时间我没法深入到非常细的技术细节,特斯拉就是把RAW data 直接输入给神经网络做处理。

从CV3 角度看这个事还是回到前面讲过的,我们希望能适应所有不同客户的需求,如果客户想把 Raw data 直接喂进神经网络进行处理,CV3 完全可以支持这种方法。

如果说(客户)还想在前端摄像头用传统ISP,它的区别在于 Raw data 是人眼没法看的,那个图象不好看,或者说用人来看 Raw data 的图象,基本上很难区分很多东西。

这才是为什么传统ISP 给人看的系统要有很好的 ISP,它会把它转换成人眼可见的图象 RGB 或者 YUV,这是典型的格式。然后再用它,包括神经网络训练也用 RGB 或者 YUV 图象来训练神经网络,这样人去检测智能的东西跑出来的结果和人眼看到的,可以做一个比较好的对比。CV3 同样也能很好地支持。

如果直接喂Raw data 进神经网络,当你想用人去检查的时候,人不能直接看 Raw data,所以还得用传统的处理再转成 YUV 或者 RGB,但是从 CV3 角度来说,都是完全可以支持的。

现在回答eTOPS,这个问题是在我们推出 CV2 系列的时候,在市场上,我们花了很长的时间跟客户沟通什么是 eTOPS?这个 e 代表什么意思呢?

e 的英文意思是指 Equivalent,意思是等效的,等效的 TOPS,为什么要有这个概念呢?

是因为我们的架构是特殊的架构,CVflow 不等同于任何 GPU,它里边有特殊的架构专门针对卷积神经网络以及常见的神经网络的运算做了优化,比如说矩阵的点积,点积这种乘法、加法跟矩阵的或者矢量的运算是神经网络里用得最多的一种算法,在 CVflow 会有我们自己专门的设计。

里边不光是运转处理,从数据存储器里拿,如果是外面DRAM 进来,其实代价是比较大。所以我们在 CVflow 里,还有特殊的技术,我们会取有效用得到的,部分数据放到CVflow内部快速的存储空间里,这只是我们特有技术之一,CVflow 里有很多我们专门做的有专利的技术。

通过这些,我们可以把某些神经网络相关运算做到非常地有效率,外面大家常说的TOPS 是非常简单的,通过简单的加法、乘法运算(MAC),就是乘法、加法器,GPU、DSP 基本都以这个来衡量,你的时钟跑多快,一乘就能知道你是多少个 T。

但是用我们架构很难这样去做对比,我们说eTOPS 就是我们把两个不同的芯片,一个是 CVflow,一个是另外大家常用的 GPU,GPU 有一个标准的TOPS,我们跑起来跟它对比,我如果能把同样的神经网络算法跑到等效这么快,就可以说这个就是 Equivalent TOPS。

当然在媒体沟通角度,eTOPS 就是 Equivalent,也就是说跟通用的芯片架构有一个标准的 TOPS 的数量比,我可以跑到等效的性能,就这个定义。

提问:关于CVFlow 的工作逻辑,如果后续车载算法升级后,NVP 的算力不够时是否可以用 GVP 来做?GVP 如果全部用来补充 NVP 的算力,整体的 eTOPS 可以达到多少?

冯羽涛:NVP 和 GVP这两个计算不是100% 可以互换的,它有不同的侧重点,NVP 主要是针对神经网络运算,而且它专门的优化主要是针对定点运算,比如说 8bit 定点,4bit 定点,当然也可以跑 16bit 定点。

之前的CV2 系列里,主要支持的是 16bit 和 8bit 定点运算,在 CV3 又支持 4bit 定点,如果算法全部量化成 4bit 定点,可以跑到 1000 eTOPS。

GVP 是干什么的呢?G 代表 general,意思就是通用性,GVP 主要支持浮点运算比较好,16bit,32bit 的浮点运算。

设计思路也是来自于之前跟很多客户需求的沟通,很多客户目前的算法里是混合的,有传统算法,也有神经网络算法。神经网络算法跑起来最优的是用8bit 和 16bit 的定点,当然也有人用 4bit 定点或者也有混合的方式。

如果是这样的算法,最好跑到NVP,如果用 GVP 跑这种算法,可能效率发挥不够好。如果算法里包含有很多浮点运算,比如说有人用 OpenCV,他想直接现成搬过来就跑,当然你可以跑到 Arm CPU 上,但 GVP 专门为这样需求设计的,所以 GVP 跑浮点运算,一些传统算法,非神经网络,效率会比较好。这两个核在 CVflow 里是有比较专门特定设计思路的东西。

如果补充GVP 多少 eTOPS,GVP 不太用 eTOPS 来(衡量),因为 eTOPS 主要是 CNN 神经网络运算的衡量标准,GVP 到底等效于多少 eTOPS,至少我们目前没有以这个角度来衡量它。

郄建军:GVP 擅长浮点运算和非神经网络计算。雷达信号处理,点云处理等等,主要都在 GVP 上跑。NVP 和 GVP 分开以后,相当于 NVP 是神经网络专用的,GVP 是其他专用,分工协作效率更高。

冯羽涛:对的,其中我们会加入专有的模块在这里支持傲酷高精度雷达的算法。NVP、GVP 也是我们自有的内核,在这颗 CV3 旗舰版可能有多个 NVP 核和多个 GVP 核,这也是我们将来推出其它低成本版的时候,考虑取舍的地方,我们放几个 NVP,放几个 GVP,都是很灵活的。

另外一点,Transformer 是最近比较流行的网络,Transformer 它需要的运算不是类似卷积或者矩阵的点积,而是直接的矩阵乘法,很多维的向量直接的矩阵乘法,我们在新一代 NVP 里也专门加入了硬件支持。

提问:汽车厂商很关注域控制器芯片的算力和视觉图象处理的协同,在尽量短的时间内识别出目标,在实践中,在复杂的路况下,精确识别目标反而是更难的,比如说高速收费站的栏杆,比如说红绿灯等等,安霸的CV3 系列如何做到兼顾目标识别的精度和速度呢?

冯羽涛:用于中央处理器,中央域控制和相对传统做法有很多个都是不同的ECU 或者运算处理单元去处理不同功能,就会造成延迟,这个延迟在自动驾驶里还是蛮重要的,会直接造成驾驶安全问题。

如果延迟比较大,会出大问题。这个延迟怎么来控制?从最初的传感器输入,到最后做出决策之间,花的时间是非常关键的。当你如果这段时间分好几个级别,用不同的ECU 或者不同的计算单元来做,一级传给下一级再传导过来的,这中间的延迟加起来可能是个大问题。

这也是传统的域控制器和现代AI 中央域控制器的区别,这也是原因之一。因为传统的做法,前面要经过一个 ISP 处理,如果是分开的单元,ISP 本身会带来一定的延迟,等它出来 YUV 或者 RGB 要再给到后面的神经网络,去做感知算法,再去做逻辑上的决策,再去做路径规划。

中间每一步都会带来延迟效应。我觉得这就是看每一家自动驾驶厂商的研发团队的思路,决定要怎么做。

提问:CV3 SoC单芯片即可运行ADAS和自动驾驶算法,相比于采用多个分散的ADAS SoC芯片组合,主要可带来哪些方面的提升和改进?这种单芯片的支持能力,是否是行业未来的发展方向?

冯羽涛:一个是从延迟的角度来说,单个芯片所有都在这里处理,如果软件做得比较好的话,是可以降低整体的延迟效应,如果用多个芯片组合,那芯片之间的通讯,延迟是一方面要考虑的,还有更多是安全性方面的考量,如果做多芯片冗余,虽然增强安全性,但芯片和芯片之间的通讯从信息安全的角度(非功能性角度)来讲也是有可能带来一定复杂性。

从整车OTA 系统架构一致性的角度来说,长期来讲可能更多是朝单芯片域控制器方向发展,但过程中不可避免会有很多短期落地项目还是会采用多个芯片。

比如说智能座舱至少是一个域,安全域有的人会采用几颗不同的小一些的控制器,还是用一颗单芯片把所有安全域的功能能都解决掉,在技术发展落地的难度也是有区别的。像CV3 单芯片做整个自动驾驶,它在技术的难度上,从安霸角度和安霸的客户角度都会有蛮大的挑战。

它的开发和验证的过程,因为从功能安全到信息安全,到全系统开发周期会稍微长一些,但是做出来的话会是技术蛮超前的系统,会是高端的系统,至少在最近几年内,这种做法是相对比较高端的一种做法。

从我们客户群体来讲,我们认为未来几年会是混合的发展路径,我们要适应市场的需求去支持。

郄建军:刚才冯总讲的多路径的芯片组合,在中国市场现在很明显。中高端的新能源汽车竞争激烈,大家都在PK 算力,大家都想达到 1000T,就四个级联或者八个级联去做。

如果用单芯片能做到,当然不用那么多级联了。其实大家争核心是高算力,如果一个芯片能做到最高的算力当然最好。单芯片做到高算力非常难,比如说制程规程要做不到5 纳米,就很难做到 500T 这么高的算力。所以大家在多少纳米上面PK。

在使用过程中,ADAS 用的算力需求不一样,L4 自动驾驶不一样。这个时候我们再有不同性能级别的 CV3 系列产品去满足大家要求,再加上已经大量使用的 CV2,组合起来,可能满足大家不同的能效比要求。

提问:如何看待安霸目前在智能驾驶芯片领域的市场定位,面对强手如林的市场,接下来安霸在中国市场的策略是如何呢?

冯羽涛:首先,我们的起点是很不错的,因为我们在视觉方面已经耕耘了这么多年,我们积累了很多自有的IP,我们不像有一些其他家的芯片公司,他们的IP核不一定是自己从头研发的,我们里边的 IP 核从 ISP 到编码器,都是经过多年的发展,在业界从性能到功耗,到成本都是非常优的。CVflow 也是经过 CV2x 的 10 纳米系列很多芯片的量产验证,再推出的高算力新一代 CVflow。

安霸对中国市场的判断,多种发展路径,中国市场有个特点,不光是汽车,中国做手机,做其他电子产品也好,都是非常明显的快速迭代,我们和欧美相比,迭代速度非常快。

汽车行业更明显,因为欧美日韩他们汽车行业相对更保守,他们在传统燃油车领域毕竟比国内发展要早很多年,咱们国内弯道超车是深入人心的一件事。

我们除了快速迭代,还在不同的场景落地。仔细去看,我们在机场、物流、大卡车、大巴,或者园区内各种落地场景真的是百花齐放。

面对这些,我们还是持乐观态度,尽管也有挑战,因为这个系统非常复杂,我们要面对这么多种应用以及快速变化的人工智能算法。经常过一段时间就有人说又有一个新的神经网络出来了,这对芯片也是个挑战,我希望我们现在的架构很好地进行了平衡,既对将来可能出现新的算法,也能够适应,而对现有可以落地的产品又能做得比较快地去交付。

我们现在能够推出最高算力的CV3 系列,因为当前有好多主机厂也有一个概念叫「硬件预埋」,意思是可能目前用不到那么多算力的芯片,将来会一步步地在此硬件平台上叠加更多的算法上去。

CV3 现在可以最多带 20 个摄像头,现在没有看到哪一家需要 20 个摄像头。还有算力,方方面面会先超前地把硬件做好,将来通过 OTA 升级,可以带来新的功能。所有这些以我们目前的芯片布局。

包括毫米波雷达和视觉的融合,因为视觉的感知和毫米波雷达的感知它的互补性非常强。我们用普通雷达硬件就可以做到高精度成像,这时你在考虑到毫米波雷达在全天候的好处,视觉感知看不清的时候,还可以通过雷达成像来做很好的感知,所以我觉得我们的芯片布局以及非常看好中国汽车市场发展的前景这一结合,我觉得还是蛮激动的。

郄建军:大家都看到我们的指标,很明显不管是算力还是能效比、功耗、纳米,都可以说是业界领先的。再加上植入4D 成像雷达算法,傲酷的雷达 4D 成像算法也是世界最领先的。

硬件预埋,中国市场很多公司都是这个思路,硬件一上来就做成L4 的。但是软件和算法慢慢迭代,L2+ ,L3 慢慢突破,但是通过 OTA 慢慢达到 L4。这个市场需求恰恰跟我们刚才提供的产品非常相符,你看我们的产品出来以后,就是为中国市场定做的,算力最高,甚至有很多人一上来说你 500T 正好我们用四个一级联就是 2000T,肯定是市场算力最高的域控制器。

我想强调我们这东西不是拍胸脯喊出来的,安霸是视频芯片做了十几、二十年,一直是最强的。傲酷雷达在市场上4D 成像雷达可以说算法最强。视频最强,雷达算法最强的两家公司合到一块又做了一个最强的高端域控制器芯片,我们可以说是一个非常厉害的组合,可以满足中国市场广泛的要求。

我们在高算力芯片市场上面,凭借技术领先,凭借最新的产品组合,我们认为在中国市场将来肯定有很好的市场地位,也希望产品落地生根在中国市场发展壮大。

提问:相比上一代芯片,CV3 多个方面的性能提升数十倍,请问是如何做到的呢?

冯羽涛:大概讲有几个方面,第一,上一代的芯片推出以后,我们跟很多客户做产品落地的过程中,我们当然会研究当初CV2 这代的 CVflow 硬件架构有什么地方需要提升,怎么提升,主要是提升效率。

第二,我们也会研究很多开源算法以及我们关注在纯科研方面关于人工智能的发展趋势,也去做一些判断。

第三,结合高性能制程,比如从10纳米进化到5纳米,这种摩尔定律的进化,主要说可以在比较小的面积上实现把时钟跑得更快,可以集成更多的晶体管,这种角度我们在看也在做。还有一个非常重要的一点,大家都希望往更先进的制程这种角度发展,也去看外面有什么神经网络来适应。

安霸独特的地方在于,比如说NVP、GVP 这种架构体现出来是什么,从第一代 CVflow,里边已经融入了很多只有我们自有的特殊的微架构的考虑,我们一开始推出ISP 芯片里边就是自研,有很多特殊的微架构在里面,现在做 CVflow 也是一样的思路。

简单来说,我们一贯的设计思路就是,通用编程适应性和提升它的功耗成本比例这之间取得一个平衡点,你如果想要做到最小功耗的硬件单元,实现某种逻辑,最省功耗的方法是统统硬件化,夸张一点说,一行代码不用写,我这叫ASIC,ASIC 就是我专门为特殊应用专门设计一个芯片,它全是硬件逻辑实现。这样的话你应该可以做到芯片的面积最小,功耗最低,实现那个功能,但可编程性、通用性就非常差,你会非常局限于某一种应用。

与它相对应的另一端就是CPU、GPU 这种通用化的,可编程的系统,它是什么都可以干,你拿 CPU 跑神经网络,跑浮点运算,做网页浏览,做服务器,什么都可以干。

安霸从一开始,我们就希望在最核心的功能上,用自有的架构,通过自己的分析判断做取舍,设计出我们认为最合适的平衡点。我们ISP、之前所有 SoC 到 CVflow,NVP、GVP,指导思想是一致的,我们希望在通用性、可编程性和最好的性能、功耗、成本之间取得好的平衡点。

提问:对于自动驾驶芯片,现在都在比拼更高的算力水平和更先进的制程,这是否意味着算力无限的膨胀以及制程的持续提升,是未来自动驾驶芯片的主要发展方向呢?在安霸看来,对一款先进的智能驾驶芯片究竟该从哪些维度去评判?

冯羽涛:现在确实大家都在算力上竞争,大家也会突出数字,比如我们这次的500eTOPS。但这个有没有头?我觉得如果从广义的人工智能发展角度来讲,还真的看不到头。

比如,服务器端及其它特殊应用,如果咱们聚焦在自动驾驶,至少在几年之内,大致这样,因为我一颗芯片500T,如果想多的话,多放两颗做到一个板子上或者做四颗芯片,一个板子上或者两个板子上,把它集联起来,做到几千个 T。

归根到底,做一辆汽车还是要考虑成本,还是要考虑功耗,什么时候是最好的平衡点?它有一个范围,但不能无限地扩张,因为以目前的芯片制程,摩尔定律还能实现多久?这也是很巨大的问号,我不能代表芯片制造业以及材料科学,那都是不同的科学,到了3 纳米或者 1 纳米的时候,量子效应出来之后,说不定要换材料了,以传统的方法来做芯片,说不定面临着很难突破的瓶颈,这都有可能。

在可预见的未来五到十年,这个的竞争应该来说不至于以再翻N 倍的方式发展,之前这几年翻的倍数真的很多,我们刚刚推出 CV2 的时候,十几个 T,已经觉得非常高了,但没有几年的时间,现在我再跟大家讲我的 CV2 系列,十来个T或者几个 T,人家觉得你这叫低算力,3 年多之前我们这还是高算力,但是我觉得这个方向慢慢会达到一个点,因为大家要找到平衡,要成本,要功耗,不要水冷,又要做到多传感器融合。

这个发展我不觉得在车上是无限的膨胀,在训练端、服务器端,我觉得可能还会膨胀一段时间。车上的推理芯片达到CV3 这样的程度,再去翻倍的话,意义不是特别大,服务器那边肯定还需要,这是我的一个看法。

郄建军:算力之间还是会竞争,这是肯定的,大家还在PK 算力,当然不是没极限的,可能到了几千个 T,我估计就会慢下来。

因为1000 个 T 以上做 L4 已经接近了,我估计怎么到一万 T 以前,L4 肯定能做了,估计在这个范围内。

另外,制程5 纳米,后面有 4 纳米、3 纳米,还会往前走,所以这个 PK 还会有,当然我们 5 纳米现在是非常领先,还有一个非常重要的指标就是算力能效比,算力比功耗。这点上安霸特别特殊,安霸芯片一贯是功耗很低,在以前所有芯片里,基本同等算力,功耗都非常低。现在 1 瓦能做个 10 个 TOPS,市场上基本没有,安霸 CV3 是唯一的,非常独特。

芯片还有很多指标,但是算力、制程、功耗,这三个指标可以说是最核心的三个指标。

调查问卷

写在最后

关于投稿

如果您有兴趣给《九章智驾》投稿(“知识积累整理”类型文章),请扫描右方二维码,添加工作人员微信。

注:加微信时务必备注您的真实姓名、公司、现岗位

以及投稿意向等信息,谢谢!

“知识积累”类稿件质量要求:

A:信息密度高于绝大多数券商的绝大多数报告,不低于《九章智驾》的平均水平;

B:信息要高度稀缺,需要80%以上的信息是在其他媒体上看不到的,如果基于公开信息,需要有特别牛逼的独家观点才行。多谢理解与支持。

继续阅读