
火出天际的“车云”究竟是个啥?
一、车云技术介绍
传统智能驾驶系统的核心在车端,而当下智能驾驶系统的核心是车云闭环。一个完整的智能体需要保持对环境变化的适应能力,而单纯的车端软件系统通常无法满足这一要求,需要依赖云端的设计和机器训练来完成对软件的迭代,而车云技术的出现,应用到自动驾驶场景可以极大提升数据处理效率,降低企业的运营成本。本文将具体介绍车云技术的原理和应用案例。
1.1云存储与云计算
在理解车云技术之前,先要理解“计算与存储分类”的概念。计算机一般由存储硬盘、内存和计算芯片等部件组成,我们可以利用计算机开发一些简单应用。而云端应用的规模要远大于计算机可承受的极限,因此我们希望有一台具有无限存储空间和无限算力的计算机来支持这些业务。云端实现这个目标的方法是通过“通信与网络”组合大量独立存储设备和计算设备,形成抽象的、可伸缩的“虚拟硬盘”和“虚拟CPU”,最终形成一个虚拟的计算机。
随着人工智能和数据分析应用的增加,行业对数据存储(读/写)的灵活度、性能和成本要求越来越高。数据存储的方案有直连式存储(DAS)、存储区域网络(SAN)、网络附接存储(NAS)以及对象存储服务(OSS)四种。不同存储方案在对接应用时各有优势,但单一方案不足以支持完整的应用,因此在不同存储集群和存储方案之上、应用数据调用之下,出现了“数据湖”概念,使各类数据应用有了“硬盘”。应用的扩展不再需要重复的数据拷贝,减少了对存储空间的需求,同时解决了多份数据的不一致问题。
数据湖基本能力示意,来源:与数据同行
从业务角度看,数据湖平台需要满足不同应用接入数据的不同标准,比如大数据分析中的HDFS标准、大规模非结构化数据存储的OSS标准等。智能驾驶的云端数据服务是数据湖应用的典型场景。例如,车辆采集的视频、雷达数据需要通过文件或对象接口导入存储,并且遵守OSS标准;在对提取的矢量和标量数据进行大规模数据分析时,则需要通过HDFS标准来完成;在关联计算统计成果时会用到数据库的存储标准。
以上是数据湖与业务的关系。对于数据湖与数据存储的关系,可以理解为不同特点的软硬件技术构建了满足不同业务需求的存储方案,数据湖完成了不同存储方案的统一管理,并向上对不同数据应用业务提供了高性能的“映射”服务,同时使数据应用的开发拥有统一的数据来源。综合来看,“计算与存储分离”理念背后仍是集中式设计思维的体现,为上层开发提供了良好的灵活性。
1.2车云闭环过程
车云闭环的数据管道的核心过程是以车端环境感知数据与司机行为数据为基础输入和触发条件,来收集海量真实场景数据,并将数据传输到云端学习系统。通过对智能驾驶模型进行训练,优化其综合表现,经过系统测试后通过OTA返还到车端,改善用户体验,进而催生更多用户增量数据的产生,以形成一个可持续成长的数据闭环系统,车云闭环的核心由以下几个关键模块构成。
数据筛选与记录:对比司机以及软件的各类信息,发现异常位置,并记录关联的环境数据,保存在本地;
数据上传:对本地数据进行归类、脱敏、压缩和打包,通过4G/5G上传到云端服务器;
数据分发:根据数据的归类信息,将数据分发到对应的云端服务单元进行针对性处理;
数据训练与研发迭代:对大量汇聚的同类型数据进行针对性处理;
软件打包:在云端将更新的模型和数据进行重新集成,形成新的软件版本,并通过一系列的测试验证,获得下发授权;
软件更新:即FOTA更新过程,将新的软件和文件通过4G/5G网络下载至车端,并完成安装部署;
软件验证:影子模式的一部分功能,被部署的软件通常不会直接更新至用户正在使用的功能,而是在后台运行。当影子模式中的差异识别模块监控发现软件可以按照预期工作时,才会真正替换正在使用的功能,并最终完成一次完整的软件迭代。
1.3车云数据记录和整理
从辅助驾驶逐渐成长到全自动驾驶的过程中,我们需要面对一个责任主体逐渐切换的过程,从法律角度出发,车云业务还要承担证据留存的职责。目前具有车云数据记录和整理功能的车辆系统有以下几种:
汽车事件数据记录系统(EDR)用于记录车辆碰撞前、碰撞时、碰撞后三个阶段中汽车的运行关键数据(速度、挡位、油门、ABS状态、安全带状态等)。当车辆在一定时间内的横向或纵向速度变化超过一定阈值,系统即认为可能会有一次碰撞的情况,此时开始记录车辆相关信息。大多数汽车的EDR主要是集成在气囊控制模块中。
智能驾驶车辆的数据存储系统(DSSAD)是智能驾驶出现后衍生出来的数据记录系统,与EDR相同的是,其聚焦于责任界定问题,只是引入了智能驾驶的责任界定问题。区别于EDR的部分在于,DSSAD并不只是在事故发生时才被触发,其记录时间是围绕人机控制权切换的时间点展开的。比如车辆已指示司机接管而司机没有接管的时间点,抑或是司机接管了某个系统异常退出的时间点。EDR关注车辆状态,而DSSAD更关心驾驶状态。
根据不同的用途,数据会有不同的存储位置和释放要求。定性事故的关键数据通常会在本地留存,而且不允许在未获得用户授权的情况下被提取。而改善类的数据在获得用户授权后,通常会直接上传云端。
二、车云技术商业模式
2.1提供软件服务
车云是一套集合了IaaS、PaaS、SaaS的整体解决方案。其中,IaaS层主要负责在设计、生产以及供应链等环节提供计算、存储、网络、CDN、安全以及灾备等相关的基础设施;PaaS层主要提供微服务框架、中间件、数据库、仿真平台、应用开发平台、大数据等平台;SaaS层的汽车云服务主要以面向终端用户的软件或应用,如协作应用程序、内容应用程序、车载娱乐终端、办公软件以及地图软件等。车云软件供应相对灵活,其商业模式包括为车企提供定制化解决方案,或向车企提供SaaS账号,按照车端接入数量,对每车/月或每车/年收取服务费。
2.2硬件部署
根据国家统计局数据,2022年公路总里程535万公里左右,全国高速公路、非高速公路总里程分别约为17.7万公里、517.3万公里,城市路口约有55万个。若想要实现更高阶的自动驾驶,将在这些公路和路口分别部署云计算和边缘计算单元设备。车路协同V2X场景下,未来车云技术具有广阔的市场空间。
2.3提供整体解决方案
在经过3年导入期后,车路协同的商业模式愈发成熟,市场需求逐渐增大;另一方面,完全自动驾驶的实现依托于车路协同,各大车企宣称在5G、云计算、V2X等综合因素加持下,2025年后可实现高度/完全自动驾驶。在此背景下,谁能向车企提供整套端到端解决方案,例如阿里云,与小鹏、吉利等车企共同搭建智算平台,谁就能更快更好的实现商业化落地,在自动驾驶下半场竞争中取得先机。
三、应用案例分析
3.1 Dojo—特斯拉自动驾驶背后的supermarket
2022年10月1日,特斯拉在AI Day表示,计划2023年之前在美国加州的PaloAlto建造第一台Dojo ExaPod——利用D1芯片打造的超级计算机集群。系统构建成功后,Dojo超级计算机预计将成为世界上最强大的超级计算机之一。特斯拉团队介绍,有了Dojo数据处理的效率将大幅提高,可将需要花费数月的工作缩减至一周。
Dojo超级计算机系统,来源:芯东西
特斯拉在自动驾驶路线选择上,一直坚持采用以车载摄像头为主导的纯视觉路线,相比多传感器融合方案,纯视觉路线对算法和算力的要求更高。算法方面,特斯拉的纯视觉自动驾驶技术高度依赖于神经网络,而Dojo超级计算机群即是特斯拉专门用于模型训练的高算力平台,能够为特斯拉提升30%的网络训练速度。
特斯拉车辆并不会将每分每秒的视频数据都发送给Dojo,也不会随机发送视频数据,更多是发送一个“场景”,例如Autopilot驾驶时,驾驶员突然介入,改为人工驾驶,Dojo就会分析这个视频案例,试图找出驾驶员中断Autopilot的原因。通过将这些具体的案例交给Dojo来分析,帮助特斯拉的Autopilot不断进化,最终实现以纯视觉为基础的完全自动驾驶(FSD)。
从特斯拉在人形机器人的核心技术,到全自动驾驶(FSD)的各种先进算法,再到Dojo超算的软硬件系统,可见特斯拉不止是一家汽车供应商,其在人工智能、自动驾驶、机器人及计算硬件相关的技术都在业内处于领先水平。未来,特斯拉老板Elon Musk则表示,最终版的Dojo将战胜日本Fukagu超算,成为世界排名第一的超级计算机。
3.2小鹏扶摇智算中心—中国最大自动驾驶智算中心
2022年8月2日,阿里云官微发布消息称,基于阿里云智能计算平台,小鹏汽车在乌兰察布建成国内最大的自动驾驶智算中心“扶摇”,专用于自动驾驶模型训练,随后,何小鹏在社交平台上表示,小鹏“扶摇”智算中心的算力高达600PFLOPS,可以将小鹏汽车自动驾驶核心模型的训练速度提升170倍,预计2025年,小鹏汽车会将“自动辅助驾驶”的辅助两个字去掉,进入到真正的自动驾驶时代”。
小鹏扶摇智算中心,来源:小鹏汽车
据工信部统计,我国已建和在建的智算中心有20余座,但算力规模达600PFLOPS的“扶摇”是目前国内最大的自动驾驶智算中心,以小鹏汽车的一个核心模型为例,过去需要7天才能完成一次训练,“扶摇”的算力可以让训练时间缩短至不到1小时,提速近170倍,同时,GPU资源虚拟化利用率也提高了3倍,端对端通信延迟低80%至2微秒。整体计算效率上,实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍。此外,阿里云机器学习平台PAI提供了模型训练部署、推理优化等AI工程化工具。
目前,“扶摇”正用于小鹏城市NGP智能导航辅助驾驶的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景(corner case)的数据集规模增加了上百倍,而对于这些复杂极端场景和海量数据运算,都可以通过“扶摇”来进行。未来小鹏汽车将会在“扶摇”的加持下,在中国智能汽车智能驾驶体验道路上迈出更加自信的步伐。
3.3吉利星睿智算中心—全球车企首个“云、数、智”一体化云计算平台
2023年2月27日,全球车企首个“云、数、智”一体化超级云计算平台——吉利星睿智算中心正式揭牌。与此同时,吉利汽车与阿里云宣布,双方将基于吉利智算中心,进一步加强在云计算、大数据和AI等方面的战略合作,联合打造汽车产业数字化新标杆。
吉利星睿智算中心,来源:吉利汽车
吉利星睿智算中心云端总算力达81亿亿次每秒、通信网络传输速度达800GB每秒,存储带宽4.5TB每秒,是业界普遍采用的以太网的400倍。且已拥有超算服务器1000多台,已接入智能驾驶和车联网实验数据近百PB、在线车辆的并发计算支持达百万辆,日均数据增量超过100TB。且已拥有超算服务器1000多台,已接入智能驾驶和车联网实验数据近百PB、在线车辆的并发计算支持达百万辆,日均数据增量超过100TB。
随着吉利星睿智算中心的揭牌上线,吉利全生态体系算力也得到了指数级提升:吉利整体研发效率提升了20%;智驾模型训练速度提升了200多倍,1000个智驾模型的研发训练只需要8个小时;单次试验数据计算时间最短可以在1秒内完成,单轮试验效率更是提升了600倍。
四、未来展望
4.1 高算力成为车企在自动驾驶赛道抢占先机的致胜法宝
高阶自动驾驶要想实现数据的快速迭代,除了需要里程的积累,更要掌握高效、低成本进行数据处理的能力。因此,在自动驾驶领域具有长期规划造车新势力、传统品牌和技术供应商都已开始搭建自己的超算中心,以便掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。
回顾上述案例,特斯拉在2021年就发布了自研云端智算中心Dojo,主要用于自动驾驶AI数据的训练和标注,具有1.8EFLOPS的算力。2022年8月,小鹏汽车与阿里云发布了小鹏汽车智算中心,名为“扶摇”,其算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏汽车自动驾驶核心模型的训练速度提升了近170倍。今年2月,吉利星睿智算中心正式揭牌,总算力高达81亿亿次每秒,智驾模型训练速度提升了200多倍。
除此之外,蔚来汽车、毫末智行、火山引擎、华为、腾讯、阿里、大陆等也纷纷公布了对于智算中心的布局规划。在不久的将来,智能汽车下半场决战正式打响,谁拥有高算力,谁就在自动驾驶赛道占据了先机。
4.2 自动驾驶开展“跨界竞争”,车企与云计算公司强强联手
未来,将会有越来越多的车企与云计算公司强强联手,合建智算中心。当下的任何一家智能汽车公司,将来智能化必须要自研,因此都会对算力提出非常高的要求,算力成本将会从今天的亿元级别上升到将来的十亿元级别。尽管特斯拉自建的超级计算机赚足了眼球,但类似“扶摇”、“星睿”的合作模式更适合中国的自动驾驶公司。
另一方面,车企在自动驾驶的算力需求很难准确估计,从供给效率来看“云”可以弹性扩容,是最高效的算力供给模式;此外,云平台本身承载了最前沿的IaaS和PaaS技术,无论是GPU的虚拟化还是算力的调度等,都可以针对自动驾驶的场景进一步优化,从而提高研发效率。由此可见,车企与云计算供应商在算法和算力上形成强烈耦合,双方各取所长,是未来发展的最佳选择。
文章转载自公众号:焉知智能汽车
