当辅助驾驶走进城市,到底应该「信地图」还是「信感知」?
从去年底开始,就有车企在为导航辅助驾驶「进城」做预热了,但是大半年过去了,导航辅助驾驶至今还停留在封闭路段。
而在今年成都车展上,魏牌副总经理乔心昱对外宣称,魏牌摩卡将成为首个量产城市导航辅助驾驶 NOH 的车型。
实现城市场景辅助驾驶,难点在哪里?当这些难点无法绕过时,厂商又是如何做的?
高精度地图并非充分必要条件?
在讨论智驾「进城」难点之前,我们先聊一下,智能汽车在封闭路段实现导航辅助驾驶的必要条件。
国内大多数导航辅助驾驶系统,都依赖高精度地图的覆盖。车辆要基于高精度地图丰富的先验信息进行点到点辅助驾驶,所以高精度地图的覆盖范围就成了导航辅助驾驶覆盖范围的关键因素。
那么辅助驾驶走入城区,表面看起来只要把高精度地图的覆盖范围扩大,事情就变得简单许多?
但是这并不容易,主要挑战有两项。一是法律法规问题,相关单位对于高精地图的审核发放资质审核极其严格;二是我国公路里程长,供应商没有足够的资源对大大小小的公路进行测绘和维护更新。
以高德、百度以及四维图新这类头部地图数据供应商,对外透露高精度地图测绘进展时都自称已完成全国 30 万公里封闭路段的测绘,同时开启了城市道路的测绘工作。
综合来看,依赖高精度地图测绘采集的铺开并非城市导航辅助驾驶的最优解,从场景适应能力来看,轻地图重感知的单车能力更适合城市导航辅助驾驶落地。
弱化高精度地图,转向「重感知」策略
当高精度地图鲜度无法满足高阶辅助驾驶的需求时,它的地位就会被弱化。
不止一家车企的高管或研发人员在公开场合表达过「弱高精地图化」的想法,且有些车企和供应商已经在这么做了。
例如长城魏牌摩卡 DHT-PHEV 搭载的毫末城市 NOH。
今年成都车展上,毫末智行 CEO 顾维灏对外分享了他们城市 NOH 进展快的一大原因,那就是「重感知」的策略。
既然是一套重感知的系统,我们首先要了解的是这套系统的感知配置。
魏牌摩卡城市 NOH 所搭载的硬件包括:
2 颗 125 线激光雷达
12 颗摄像头
5 颗毫米波雷达
高通 Snapdragon Ride智驾平台,单板算力 360 TOPS
值得注意的是,高通 Snapdragon Ride 平台下首发的 8540 芯片采用的是 5 nm 制程工艺,9000 采用的是 7 nm 制程工艺。这也是高通骁龙 Ride 自动驾驶算力平台在国内的首次上车。
从硬件上来讲,这完全是一套奔着高阶辅助驾驶,甚至是自动驾驶去的硬件架构。
但是辅助驾驶看的是软件能力。在此前的两届毫末 AI DAY 上,毫末智行 CEO 顾维灏分享了很多毫末自动驾驶的干货。下面我们来回顾一下,也许就能窥见魏牌摩卡城市 NOH 的大致能力。
单车智能,毫末是怎么做的?
顾维灏称:目前大部分的智驾感知系统都存在「时间上的感知不连续、空间上的感知碎片化」问题。
时间上的感知不连续指的是由于摄像头采集的图像都是以帧为单位,两帧之间的时间间隔为定值。系统能够对每一帧图像进行处理,但是帧与帧之间的几十毫秒对于系统来说就是空白。即便具备单帧目标持续检测处理能力,在时间上进行后处理融合也无法充分利用时序上的有用信息。
空间上的感知碎片化指的是由于每一个传感器都有 FOV 视场角的限制,且安装位置和角度也不同,导致每个传感器都只能感到当前环境的局部信息。系统需要将多个相机的数据融合在一起,才能得到车身周围 360° 的环境信息。
随着数据量的增多,传统的 CNN 算法显得开始有些吃力,于是毫末引入了 Transformer。Transformer 最早由谷歌团队提出,首先被用于自然语言处理领域,用来处理序列文本数据。
后来因为 Tranformer 在大数据处理方面的优势,非常适合汽车自动驾驶海量数据的处理,于是在近些年受到了视觉领域的热捧。在处理多个传感器检测结果与充分利用时序信息的融合要求下,Transformer 的优势就能够体现出来。
特斯拉是首个将 Transformer 神经网络带入到自动驾驶领域的车企。而如今国内车企与供应商也纷纷跟进,长城毫末是动作进展最快的一家。
Transformer 在空间前融合的主要作用是坐标系的转换,而空间融合模块在时序上的持续输出则是时间前融合。
引入 Transformer 神经网络后,我们再通过空间与时间两个维度来聊毫末城市 NOH。
空间前融合
Transformer 在空间前融合的主要作用是进行坐标系的转化,毫末将多个角度的图像数据进行拼接,画面转换到具备 Z 轴的三维空间坐标系,从而输出鸟瞰视觉 BEV。
使用 Transformer 的注意力机制,系统可以非常稳定地识别车道线这类目标物体,否则不同传感器的标定误差会非常影响感知的连贯性。
同时,在输出 BEV 后,系统还需要对应目标位置 ,也就是找到三维坐标系中每个点与 2D 图像中的对应关系。
城市 NOH 的特征提取仍然是在 2D 图像上完成的,但是多了一步 BEV Mapping,即采用 ResNet 和 FPN 进行特征提取,然后使用 Transformer 将特征图变换到统一的 BEV 坐标。
不同于特斯拉的纯视觉 BEV,毫末城市 NOH 还融合了激光雷达点云数据。但是由于激光雷达产生的点云数据本身就具备 3D 信息,所以与图像 BEV 前融合的难度并不算大,同时两种属性的信息也能互作校验。
时间前融合
在时间融合上,简单地说,我们人类开车做预测是基于短暂的记忆来做预测和判断的。例如我一秒前看到有一个锥桶飞到我的车道前,那么我识别到之后,下意识减速、观察环境然后变道躲避。要让系统具备预测能力,就要加上时序,即让它具备记忆。
而这也是 Transformer 的优势所在,BEV 不仅要对齐不同视角的信息和特征,同时还要把各个视角素材的时间轴做好匹配,并在车辆行驶中将「过去时」里已经构建好的环境与「现在时」构建的环境做连续拼接。
这样,系统就具备了「短时记忆」。
数据系统
人类驾驶员只需要学会驾驶,就能够在大部分道路上开车,不需要把全国道路都开一遍。这是因为人类不需要高精度地图这类先验信息。眼睛(传感器)+大脑(神经网络)就足以解决驾驶这项任务。
但是系统想要实现自动驾驶,则需要尽可能多的进行路测,这样才能解决更多 corner case。打个比方:人类就像家长,智驾系统则像是呢喃学语的孩子,家长要让他多「看」外面的世界,并且亲口告诉他这是什么,那么再次遇到时,他才能认识。
所以大量的数据就变得非常重要,去年底,毫末智行发布了自动驾驶数据智能体系MANA。简单地说 MANA 就是关于数据的一切,包含了数据标注、算法模型、测试验证系统、仿真模拟工具以及计算硬件。
在真实路测方面,毫末NOH 用户真实行驶里程达到了 1,500 万公里,用户总使用时长 171,884 小时。
写在最后
也许是车企普遍认为在短期内,寄希望于图商对全国大大小小的城市道路进行高精度测绘和维护是一件难于登天的事情。所以单车智能,依赖车辆的传感器进行自动驾驶逐渐成为车企共同努力的方向。
这就造就了今天这幅行业景象,排头兵奋力摸索,企图打通高速与城市,在功能上也「卷」出了新高度。
而毫末、或者说长城集团的发力,最终都会率先通过魏牌传达到消费者端。
上个月,魏牌拿铁 DHT-PHEV 车型正式上市,这标志着魏牌全线产品均已完成驱动系统的转型,全面迈向新能源化。
而城市 NOH 的上车,则代表了魏牌正式将「智能化」这块拼图集齐。
不管你承认与否,魏牌都处于长城集团品牌线的金字塔顶。从智能 DHT、到毫末高速 NOH 落地与城市 NOH 的接近量产,魏牌都是集团内率先搭载的品牌。
这对于消费者来说绝对是好事儿,过去我们想要领先的智能驾驶,只能去选择新势力车型。但当魏牌也具备领先的智驾系统时,消费者的可选择性就会变得非常多。
所以,我们是非常期待能够有更多类似于魏牌的品牌去直面竞争新势力,产品「内卷」,受益的永远都是消费者。
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~