
目前各家做的自动驾驶数据闭环平台真的闭环了吗?
本文就“自动驾驶数据闭环”话题整理了一些来自知乎、各家官网及网络公开信息,还掺杂了部分个人观点/看法,仅供参考,欢迎讨论~
导读
1 数据闭环介绍
1.1 什么是数据闭环? | 1.2 数据闭环核心模块介绍
2 数据闭环案例
2.1 Tesla | 2.2 Waymo | 2.3 英伟达 | 2.4 百度 | 2.5 禾多 | 2.6 华为
3 数据闭环难点
3.1 量产 | 3.2 合规 | 3.3 数据管理 | 3.4 数据标注及后续处理
4 写在最后
数据闭环介绍
什么是数据闭环?
数据闭环本身不算一个新概念,互联网早期便有广泛应用,一个典型的例子:各 App 的“用户体验改进计划”。自动驾驶系统除代码外,还有 AI 模型,其数据闭环在传统数据闭环方式上引入了模型问题的相关模块。其最核心的两个意义:增效、降本。
自动驾驶中的数据闭环,是指算法研发由 case-driven 转向 data-driven 的核心步骤。大概整理了下数据闭环的链路,如下图所示:
数据闭环链路
- 链路中的环节包含工具链路通和算法开发两部分。
- 算法开发主要有数据挖掘数据标注、模型优化这三部分。
- 这里面数据标注中的自动标注,即 AutoLabeling 是目前数据闭环中最为核心的部分。
- 数据挖掘和模型优化,也是需要攻克和解决的点,只不过从成本和效率上,目前优先级没有自动标注高。
数据闭环核心部分介绍——AutoLabeling 方案
以下的讨论以目标检测任务为例。
Pipeline
目标检测任务的主要 pipeline 流程包含目标检测、轨迹生成、轨迹优化三部分。
其中目标检测模型 MOT 算法,都有比较成熟的算法,所以 AutoLabeling 中创新点主要体现在轨迹优化这个步骤。
学术界的 SOTA
目前关于 AutoLabeling 的完整方案方面的论文不是很多,这里面比较有代表性的有:
- 谷歌Waymo在2021年发表的:《Offboard 3D Object Detection from Point Cloud Sequences》
- Uber的ATG(Advanced Technology Group)在2021年发表的:《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》
- Open MMLab在2022年发表的:《MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection》
下面对这三篇文章做了个简单地总结和对比:
论文 | 机构 | 轨迹优化方法 | 发表年限 |
Auto4D | Uber | BEV空间特征 | 2021.01 |
Offboard3D | Waymo | Point-Based | 2021.03 |
MPPNet | OpenMMLab | Former(基于Attention) | 2022 |
Auto4D的轨迹优化
- Size Branch: 累积全轨迹点(时域信息忽略),BEV编码,得到全局的稳定size。
- Update:基于最近corner align,更新全轨迹的box属性。
- Path Branch:累积全轨迹点(保留时域信息,但时域和高度channel合并),BEV编码,得到相邻帧位移
Offboard3D的轨迹优化处理
- 动静态判断:box中心点方差<1m/s^2,首尾帧中心点偏移<1m,则为静态,否则为动态。
- 静态轨迹优化:前背景分割网络对box周围的原始点进行分割,box回归网络得到box属性(基于PointNet)
- 动态轨迹优化:对于点进行前背景分割+点序列编码,对于框进行序列编码,最后加2层box回归网络。
MPPNet
- 选取代理点:每个框均匀选择代理点(4x4x4)
- 单帧提取特征:提取几何特征、运动特征
- 组内特征编码:x、y、z、c通道分割使用MLP进行feature mixing
- 组间特征编码:使用Former结构,共享K、V,进行feature mixing
- 3D检测头:使用Tranformer Decoder
数据闭环案例
亿欧统计了 2023 年具备自动驾驶数据闭环能力的“智驾做题家”团队,如下:
- 主机厂:tesla、小鹏、阿维塔
- 自动驾驶解决方案/零部件供应商:Momenta、小马智行、华为智能车BU、文远知行、易航智能、德赛西威、驭势科技、禾多科技、宏景智驾、天瞳威视、领骏科技、蘑菇车联、智行者科技、福瑞泰克、觉非科技、知行科技、毫末智行、MINIEYE、均胜智能、东软睿驰、四维图新、轻舟智航、中海庭、智协慧同
- 芯片供应商:地平线、黑芝麻智能、芯驰科技、英伟达
- 数据服务商:云测数据、曼孚科技、奥鹏Appen、格物钛、景联文科技、海天瑞声、世纪互联、整数智能、杉岩数据
- 云服务供应商:亚马逊AWS、华为云、百度智能云、阿里云、火山引擎
本文介绍其中 6 家企业的自动驾驶数据闭环方案。
Tesla
Tesla 以 Autopilot 数据引擎框架为核心,基于车端传感器获取数据后,在数据管理平台上,首先经过单元测试确认模型误差,然后经过数据清洗与标注,最后完成模型训练与部署,整体架构如下图所示。
图源:Tesla
Waymo
相较于 Tesla,Waymo 引入了数据挖掘、主动学习、自动标注等模块,但基本的框架相差无几。获得数据来源后,通过数据标注获得数据真值,其中涉及到数据筛选、挖掘和主动学习,模型优化完成测试后,进行发布或部署。
图源:Waymo
英伟达
英伟达在自动驾驶开发建立的机器学习平台 MAGLEV,也是基于闭环的模型迭代:其中有 smart 的数据选择、数据标准、模型搜索、训练、评估、调试和部署。
图源:英伟达
百度
研发闭环:两个环
- 一个是中间层小环,数据产生之后,经过数据管理平台,包括一些仿真测试、仿真云、再到车端部署,实现仿真的场景。
- 另一个是外面的大环,主要做一些数据管理的工作,经过标准、加工、模型训练以及最后的车端部署,来实现这样一个大环。
图源:百度云
将上面的数据闭环链路拆解到架构层来看,可以把自动驾驶的数据研发分为如下五层:从最底下的基础设施,到中间的 PaaS 工具链,再到上面的一些 AI 运营服务。
禾多
禾多基于完全自研工具链,形成了从数据采集、数据仿真到场景库搭建、系统测试的完整闭环,打通了基于数据驱动的自动驾驶系统升级闭环链路。
图源:禾多
华为
华为云提供了三层加速方案,包括训练加速、数据加速、算力加速,自动驾驶算法能够高效被训练、被推理,也能形成整个数据端到端的闭环。
华为云依托 "1+3+M+N" 全球汽车产业云基础设施布局,即全球 1 张车用存算网、3 个超大数据中心构建汽车专区、M 个分布式车联网节点、N 个汽车专用数据接入点,助力企业打造数据传输、存储、计算、专业合规基础设施,助推智能驾驶持续发展。
图源:华为云
华为开发者大会上,张平安表示:华为盘古大模型 3.0 是一个完全面向行业的大模型系列,包括 5+N+X 三层架构,其中第二层的 L1 层是 N 个行业的大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的 L0 和 L1 上,为客户训练自己的专有大模型。
数据闭环难点
自动驾驶技术及平台能力已逐渐成熟,但数据安全监管、数据闭环“长尾”问题、工具链、训练算力、成本等影响高阶自动驾驶商业化落地的关键挑战仍在。
过去一两年,国内大部分车厂都是从 0-1 建立数据闭环的过程。未来数据闭环会从 1.0 向 2.0 方向演进。1.0 是最基础的功能,客户的典型诉求是能把数据闭环跑通,2.0 就要关注数据闭环的效率和成本。
难点主要介绍 4 个方面:量产、合规和数据管理平台、数据标注及后续处理
量产
针对数据传输以及数据特点,数据采集车和量产车有以下不同点。
数据采集与传输 | 数据特点 | |
数据采集车 | 合规员随车以及物理搬运的模式 | 车辆规模小但单车数据量大 |
量产车 | 车端轨迹偏转插件和图商密钥加密无线上传的模式 | 单条数据量小,但数据量巨大 |
表源:十一号组织
目前行业来看,数据采集车上采集的数据用于自动驾驶功能/算法开发(深度学习模型迭代),而量产车上主要采集的是系统诊断通讯数据、自动驾驶系统存在故障的数据以及由于车型变化影响自动驾驶算法功能的车型差异视频数据。
量产车上回传的大量数据,需要系统具备高效的文件传输能力以及充足的算力,就目前行业现状来看,还没有哪家企业具备处理或回传大量数据的能力。
合规
合规分为测绘合规和隐私合规:测绘合规主要涉及到采集国家地理信息时的合规,隐私合规主要涉及到采集用户隐私相关数据的合规。
自从 2022 年 830 新规之后,无论是量产车、采集车还是测试车,自动驾驶相关的道路数据采集都属于测绘成果数据。关于隐私合规、测绘合规的国家要求可以参考下表:
监管部门 | 数据类别 | 数据类 | 数据类型 | 处理方式 |
工信部 | 隐私类 | 人脸 | 视频 | 模糊化 |
自然资源部 | 测绘类 | 军事区域 | 视频 | 模糊化 |
表源:十一号组织
国家对于车载摄像头、高精定位、激光雷达等传感器采集的数据还有严格的合规要求:测绘的合规流程很复杂(例如:采集的数据还需要车端脱敏、加密等合规处理),资质又难于获取;隐私合规方面国家给出的限定条款相对宽泛,企业在量产车上采集数据,需要用户授权。这对海量自动驾驶数据的脱敏带来了巨大挑战。
数据管理
数据管理平台承担着高阶辅助驾驶/自动驾驶域的数据注入、数据传输、数据存储、数据处理和数据管理服务。可以为高阶辅助驾驶/自动驾驶研发过程中的 corner case 问题分析、感知模型训练、数据标注、仿真场景、评测验证等提供数据支撑,是衡量高阶辅助驾驶/自动驾驶研发能力和水平的关键。
自动驾驶系统规模化量产后,各企业将面临海量数据风暴,且自动化程度越高,所需的数据存储量越大。急剧增加的数据量给存储空间以及数据处理的速度都带来了挑战。
数据标注及后续处理
无论是量产车数采,还是数据采集车数采,自动驾驶视频采集量都很大,而且采集的视频需要尽可能的还原真实场景数据,因此,每天采集的数据量大概是 TB 级别,数据海量。
即使采用自动化标注工具进行标注后,由于目前的标注工具准确度不够高,还需要人工进行校验、修改。数据标注面临如下几个问题:
1. 人工标注的标准很难保证一致性,存在精度偏差。
2. 在海量数据量的情况下,人工标注需要很大工作量,很难保证标注结果完全准确。
3. 除了海量数据,自动驾驶需要标注的特征种类繁多,这也给数据处理增加难度。
简单梳理一下:
合规问题(车辆安全)-->数据脱敏、加密困难等
自动驾驶数据量大-->数据接入困难,数据存储困难,数据标注及后续处理困难,模型训练及迭代困难等
写在最后
1. 自动驾驶数据闭环过去几年是“从无到有”,现在及未来是“从有到精”。
2. 自动驾驶链路很长,功能侧仍有很多技术问题需要解决,大部分都是功能探索为主,平台与系统建设为辅。基于驱动研发及运营模式的角度来看,目前并没有真正意义上的闭环,都是局部闭环,大部分都需要手动工作,例如:数据标注。
3. 实现自动化数据闭环之路还很长,我们看到了它的进步,更期盼它能更好的实现增效、降本。
引用/参考文章
1. 自动驾驶数据闭环及 AutoLabeling 方案介绍
https://www.zhihu.com/question/552466858/answer/2792101120
2. 自动驾驶数据闭环:实现高阶自动驾驶的必由之路
https://zhuanlan.zhihu.com/p/577950898
3. 自动驾驶数据闭环系列之一:理想丰满,现实骨感
https://mp.weixin.qq.com/s/A4bLFRdIfYwG81LBanJDYg
4. 自动驾驶数据闭环,2023智驾量产新战场
https://mp.weixin.qq.com/s/v1i8ZSnSCfJag7MbnhzgTA
5. 数据闭环(一),落地道路上的三大难点
https://mp.weixin.qq.com/s/5tEe5WkTR35P0b7wM9f6EQ
文章转载自公众号:ADS智库
