“大模型”是实现自动驾驶的唯一出路!

2023-10-21 20:52:12 5点赞 12收藏 1评论

什么是大模型?为了说明这个问题,我们先看一个简单的方程:y=f(x)

这里的x有几个,我们就说有几个参数。那么什么是大模型呢?就是这个x有几十亿甚至上百亿个。是的,没错,就是:百亿个!

大模型:泛指具有数十亿甚至上百亿“参数”的深度学习模型。

“大模型”是实现自动驾驶的唯一出路!

为了说明大模型是否可以让自动驾驶真的走向无人?咱们先看看“自动驾驶”的前世今生!

自动驾驶一直是汽车人的梦想,为了实现自动驾驶,从上个世纪开始,汽车人们就在做着各种尝试:

无线电控制的自动驾驶汽车用线圈引导控制汽车

“大模型”是实现自动驾驶的唯一出路!

当然,最重要的里程碑事件就是美国的2005年DARPA自动驾驶挑战赛。

美国为了促进自动驾驶的发展,2001年开始开展了DARPA挑战赛。是在美国的西南部的沙漠里进行,需要完成150英里长的赛道。前几期,15支参赛队伍,几乎无人能行走超过8英里。而在2005年,来自斯坦福大学的车队,用了七个小时顺利完成全部比赛。

这是一次非常大的跨越,不同于其他没有完赛的车队,斯坦福车队的”自下而上的数据驱动型人工智能“打败了其他车队”自上而下的指令符号型人工智能“。

“大模型”是实现自动驾驶的唯一出路!

符号型人工智能的编程人员,需要将现实抽象出来,搭建整体的理论模型。而数据型人工智能采用大量的数据“算法”并使用相应的技术进行数据处理,做到自主的去学习,识别固定的模式。

这场比赛的结果,证明了汽车的自动驾驶的关键问题在于“软件”,而不是“硬件”。而软件的关键问题又是“算法”。数据型驱动的人工智能更加能够适应千变万化的路况,而不是程序员预先抽象出来的逻辑。

既然方向已经确定,那么剩下的关键:就是如何采集和处理数据的问题了。

上面描述的过程,大概描述了自动驾驶采用“神经网络、训练算法"的初始。

与早期的人工智能模型相比,后期发展出来的大型模型在“参数”量上取得了质的飞跃,尤其是Transformer模型的出现,导致了在复杂任务的建模能力整体上的提升:1)学习能力增强:以应对更复杂的任务;2)泛化能力加强:以实现更广泛的适用性;3)鲁棒性提高;4)具备更高层次认知互动能力:可模拟某些人类能力等。

1.CNN模型:2011-2016年

自动驾驶汽车最初大规模采用的就是CNN模型,也叫:卷积神经网络。CNN极大提升了自动驾驶车辆的环境感知能力:

1.    图像识别与处理效率高,能力强,使车辆能够准确分析道路、交通标志、行人与其他车辆。

2.    能有效处理多种传感器数据的优势,实现了图像、激光雷达等数据的融合,提供全面的环境认知。

但是,CNN模型需要大量的标注数据,而量大、高质量的标记数据获取起来有难度。这就导致其适应多种尤其是小概率路况的能力不强,时序处理能力也较RNN弱。

卷积神经网络卷积神经网络

2.RNN模型:2016-2018

RNN也叫循环神经网络。相较于CNN,RNN更适合处理时间序列数据。它的循环结构可以建模时间上的动态变化,这对处理自动驾驶中的轨迹预测、行为分析等时序任务非常有用。例如在目标跟踪、多智能体互动建模等领域,RNN可以预测车辆未来的运动轨迹,为决策和规划提供支持。

RNN类模型的“长期时序”建模能力仍较弱,特别是在处理较长的时间序列数据时可能出现梯度消失或梯度爆炸的问题,限制了 它在某些自动驾驶任务上的应用效果。

3.GAN模型:2016-2018

与RNN同步采用的GAN模型,也叫做“生成对抗网络”。它的生成能力缓解自动驾驶系统训练数据不足的问题。GAN可以学习复杂分布,生成高质量的合成数据可用于缓解自动驾驶系统训练数据不足的问题。

例如GAN可以生成模拟的传感器数据、场景信息,测试自动驾驶算法的 鲁棒性,也可以用于交互式模拟场景生成。

“大模型”是实现自动驾驶的唯一出路!

GAN模型:生成的数据质量难以控制,很难达到足够逼真的程度。在具体应用时相对有限。

4.BEV模型:2018-2020

BEV也叫做“鸟瞰模型”,核心思想是将车辆周围的三维环境数据(如来自激光雷达和摄像头的点云、图像等数据)投影到俯视平面上生成二维的鸟瞰图。这种从3D降维到2D的的方式,获得了一个巨大的好处:比原始传感器数据更加直观和信息丰富的环境表达。可以更清晰地观察道路、车辆、行人等元素和位置关系,增强自动驾驶对复杂环境的感知能力。

另外,在这个压缩为二维的方法,可以将多种传感器数据融合在一起,进行一个共享的表达中,可以获得更一致和全面的信息。

但是BEV也有自己的缺点:大量的坐标变换和数据处理,增加了计算和对硬件的要求。另外三维到二维的处理,一定会损失一些细节信息,如遮挡关系。

“大模型”是实现自动驾驶的唯一出路!

 

5.Transformer模型:2021至今

Transformer模型最大的创新在于提出了“注意力机制”,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统 RNN和CNN在处理长序列数据时的局限。

在Transformer出现之前,自然语言处理一般使用RNN或CNN 来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的 困难:RNN的序列处理结构使较早时刻的信息到后期会衰减; 而CNN的局部感知也限制了捕捉全局语义信息。这使RNN和 CNN在处理长序列时,往往难以充分学习词语之间的远距离依赖。

Transformer解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,奠定了大模型技术实现的计算基础。 也成为现在大家竞相使用的模型之一。

“大模型”是实现自动驾驶的唯一出路!“大模型”是实现自动驾驶的唯一出路!

特别的:Transformer+BEV

一方面,BEV可以高效表达自动驾驶系统周围的丰富空间信息;另一方面,Transformer在处理序列数据和复杂上下文关系方面展现了独特优势。两者结合可以充分利用BEV提供的环境空间信息,以及 Transformer在多源异构数据建模方面的能力,实现更精确的环境感知、更长远的运动规划和更全局化的决策。 两者组合可实现互补,增强对复杂场景的理解表达。

2020年以来, Transformer+BEV结合正在成为自动驾驶领域的重要共识,推动自动驾驶技术进入崭新发展阶段。

“大模型”是实现自动驾驶的唯一出路!

6.占用模型:2022-至今

BEV+Transformer的不足:鸟瞰图为2D图像,会缺失一些空间高度信息,无法真实反映物体在3D空间的实际占用体积, 故而在BEV中更关心静止物体(如路沿、车道线等),而空间目标的识别(如物体3D结构)难以识别。

特斯拉在2023年AI Day公开了occupancy network(占用网络)模型,基于学习进行三维重建,意图为更精准地还原自动驾 驶汽车行驶周围3D环境,可视作BEV视图的升华迭代。

占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界,可以在没有激光雷达提供点云数据的情况下对3D环境 进行重建,得到更加准确的三维场景信息。

“大模型”是实现自动驾驶的唯一出路!

总之,

Transformer+BEV+占用网络算法让车辆能够更精准地理解复杂的交通环境, 为L3和更高级别的自动驾驶系统提供更强的环境感知能力,从而真正的落地实现“无人驾驶”。

展开 收起

Xiaomi 小米汽车 SU7

Xiaomi 小米汽车 SU7

暂无报价

智界 S7

智界 S7

暂无报价

TESLA 特斯拉 Model 3

TESLA 特斯拉 Model 3

265900元

ZEEKR 极氪 001

ZEEKR 极氪 001

300000元起

TESLA 特斯拉 Model Y

TESLA 特斯拉 Model Y

263900元起

AITO 问界 M5

AITO 问界 M5

259800元起

方程豹 豹5

方程豹 豹5

暂无报价

BYD 比亚迪 秦PLUS

BYD 比亚迪 秦PLUS

99800元

LEADING IDEAL 理想 L6

LEADING IDEAL 理想 L6

暂无报价

仰望 U8

仰望 U8

1098000元起

ZEEKR 极氪 009

ZEEKR 极氪 009

499000元起

BYD 比亚迪 海鸥

BYD 比亚迪 海鸥

73800元起

五菱 星光

五菱 星光

暂无报价

PORSCHE 保时捷 Taycan

PORSCHE 保时捷 Taycan

888000元

深蓝汽车 S7

深蓝汽车 S7

149900元起

LEADING IDEAL 理想 L9

LEADING IDEAL 理想 L9

429800元
1评论

  • 精彩
  • 最新
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
12
扫一下,分享更方便,购买更轻松