起猛了,自动驾驶模型学会解说车技了

发布于 2023-9-27 10:36
浏览
0收藏

一凡 发自 副驾寺
智能车参考 | 公众号 AI4Auto

“我现在停车了,因为排头那辆车也停了。”


“前面畅通无阻,咱们加速就行了。”


做个驾驶动作还要给你解释一句,是不是让你回想起了科目三前被驾校教练支配的恐惧?


其实开头两句话全部来自AI,是自动驾驶模型LINGO-1在行车时生成的,LINGO-1将自然语言引入自动驾驶模型提高了模型的可解释性。


开发团队来自英国初创公司Wayve,创始人为剑桥大学机器学习博士,今年3月比尔·盖茨曾试乘过过Wayve的自动驾驶汽车。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

△比尔盖茨与Wayve创始人

那么LINGO-1具体都能做什么?都有哪些好处?

LINGO-1能做什么

LINGO-1主要能实现行车解说视觉问答两大功能。


首先是行车解说,当LINGO-1在操控车辆时,其会用语言描述自己的驾驶行为并对自己的决策做出解释。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

比如上图中,LINGO-1要驾驶车辆超过一辆停靠在路边的车时,先后输出文字:


  • 由于交通堵塞,我正在缓慢靠近


  • 我正在超越一辆停在路边的车


  • 我正在加速,因为前面道路畅通无阻


除了车辆这种庞大障碍物,还能够识别地面标识,比如斑马线。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

可以从图中看到依然会做出解释:


  • 因为道路仍然畅通,所以保持匀速


  • 正在减速制动,停在了斑马线前


  • 起步后道路畅通,加速


在路口这种复杂场景也是“停不下嘴”:


  • 我停车了,因为领头车辆停了

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

  • 我在加速,遇到路口了,刹车


  • 车道恢复畅通,按照路线左转

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

同时还有问答功能,你可以像在驾校问教练那样向他提出各种驾驶场景的问题,来评估该模型的场景理解能力和推理能力。


如在下图中,可以询问LINGO-1在该十字路口正在注意什么。LINGO-1说自己看到红灯了所以停车了。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

接着又向其询问你停车时最注意的三件事物是什么,模型解释自己最关注的是信号灯、停在前面骑自行车的人和要过马路的行人。


此外还可以询问天气对驾驶的影响:

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

可以看到LINGO-1能识别出雨天,并称由于下雨了自己会开的更小心些。


并坦承“我无法预测雨什么时候会停。”


通过演示,相信你已经明白了LINGO-1与其他自动驾驶模型的最大不同——


LINGO-1会解释


LINGO-1输出的文字并不同于普通的聊天机器人,都是在解释“为什么这个场景我会做这样的驾驶操作”。


虽然也能问答,但全都是根据驾驶场景做出的理解。


Wayve将LINGO-1称作VLAM(视觉-语言-动作模型),最大的创新之处在于将自然语言引入了自动驾驶

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

不久前,马斯克在直播FSD V12时接管了一次车辆,因为车辆在过路口时程序没有做出正确识别,路灯显示可以左转,结果车辆却启动直行。


马斯克之后表示解决问题的办法是回去“喂更多左转红绿灯的视频数据”。


而在LINGO-1的训练过程中虽然也有“视频数据”,但同时还有很多老司机的“语音包”。


Wayve在训练LINGO-1模型时请来了很多专业司机,其中有一部分就是驾校教练,Wayve要求他们在驾驶测试车辆做操作的同时大声说话,解释自己为什么这么做。


这才有了开头大家熟悉的一幕。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

LINGO-1的出现,使得自动驾驶由过去的“感知->驾驶操作”的逻辑变为“感知->文本推断->驾驶操作”。


这样有什么好处呢?

有什么好处

主要是两个方面:提高模型的可解释性和加快模型完善自身。


首先最大的好处是提高了模型的可解释性


自动驾驶是基于神经网络的程序,而神经网络长期以来都是一个“黑箱”,即人们知道神经网络可以做哪些事,可以通过调整参数来提高神经网络的效率和准确率。


但是很难解释背后具体的原因,不了解为什么程序会这么做。


而信任往往来自了解,LINGO-1在做出操作时会解释自己的行为,因为这个场景里有什么所以LINGO-1做出了这些操作。这有助于提高人们对自动驾驶的信任。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

加快模型完善可以从发现问题加速训练两个角度来看。


LINGO-1引入自然语言处理有助于定位自动驾驶模型的问题,加快完善模型。


如果自动驾驶的模型出现问题,很难像过去开发程序那样一行行的“Debug”,定位问题具体出现在哪行代码。


只能是发现“识别左转路灯”有问题,那就回去喂对应数据。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

LINGO-1犯错了可以根据驾驶场景让它自己解释,假设同样过路口,本来路灯显示左转结果它控制车辆直行,那么可以根据它的解释“为什么我会直行”来更精确判断问题。


最后是自动驾驶落地无法绕开的“边缘场景”问题,“边缘场景”无穷无尽,总会有自动驾驶没有遇到过的场景,只能后续通过“喂数据”完善。


LINGO-1还可以想象训练数据中没有发生过的场景,然后推断怎样正确处理。


当然,它有了自己的推断后还是会形成文字输出,可以判断它做的是否正确。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

这让模型能够接触更多的“边缘场景”,而不只是等现实慢慢收集。

开发团队简介

Wayve成立于2017年,投资方有微软等,估值已经达到了独角兽。


创始人为现任CEO亚历克斯·肯德尔和艾玛尔·沙(公司官网领导层页已无其信息) ,两人都是来自剑桥大学的机器学习博士。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

△Wayve CEO亚历克斯·肯德尔

技术路线上,和特斯拉一样,Wayve主张利用摄像头的纯视觉方案,很早就抛弃高精地图,坚定的走“即时感知”路线。


此前曾发布过GAIA-1模型,可以输入视频、文本和动作生成逼真的驾驶视频。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

可能也正是借助这项技术,LINGO-1能够想象没有遇到过的驾驶场景。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区

尽管目前来看LINGO-1还有很大局限性,官方承认和人类司机相比验证正确率是60%(如上图),但是已经有技术大牛对此给予肯定,比如英伟达高级AI科学家Jim Fan博士,称其为“一段时间来在自动驾驶领域读到最有趣的工作”。

起猛了,自动驾驶模型学会解说车技了 -汽车开发者社区


分类
收藏
回复
举报
回复
相关推荐