#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real 原创

发布于 2023-4-1 18:41
浏览
1收藏

导读:

V2V4Real是首个大规模真实世界多模态车对车(V2V)协同感知数据集,旨在解决自动驾驶感知系统对遮挡物敏感和长距离感知能力不足的问题,为实现L5级自动驾驶提供支持。数据集涵盖了410公里的驾驶区域,包括激光雷达帧、RGB帧、带注释的3D包围盒和高清地图,涉及协同3D物体检测、协同3D物体跟踪和基于协同感知的Sim2Real领域自适应等任务。V2V4Real有望推动协同感知技术的发展,为自动驾驶领域带来革新。

欢迎关注国内首个以自动驾驶技术栈为主线的交流学习社区!
原文出处:微信公众号【自动驾驶之心】

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle Cooperative Perception

单位:UCLA Mobility Lab

论文链接:Paper: https://arxiv.org/abs/2303.07601

代码链接:Github: https://github.com/ucla-mobility/v2v4real

项目主页:https://mobility-lab.seas.ucla.edu/v2v4real/

1.研究动机

感知在自动驾驶(AV)中至关重要,以实现精确导航和安全规划。深度学习的最新发展为各种感知任务带来了重大突破,如3D物体检测、物体跟踪和语义分割。然而,单车视觉系统仍受到许多现实挑战的困扰,如遮挡和短距离感知能力,这可能导致灾难性的事故。这些不足之处主要源于单个车辆的视野范围有限,导致对周围交通情况理解不完整。

近年来,协作感知系统的发展引起了越来越多的兴趣,通过利用车对车(V2V)通信技术,多个网联自动驾驶车辆(CAVs)可以实时交流并共享传感器信息。然而,由于缺乏公共基准,很难在现实场景中验证V2V协同感知。现有的V2V数据集,如OPV2V、V2X-Sim和V2XSet,主要依赖开源仿真软件如CARLA生成合成道路场景和交通动态。然而,众所周知,合成数据和现实数据之间存在明显的领域差距,因为仿真中的交通行为和传感器渲染通常不够真实。因此,在这些基准上训练的模型可能无法很好地泛化到真实驾驶情境。

为了弥补现实与仿真之间的差异,V2V4Real横空出世。它是首个大规模真实世界多模态数据集,专为V2V协同感知而生。该数据集提供了大量协同感知的真实数据,通过这些数据,研究人员可以更好地理解车辆之间如何共享信息、协同定位和规划路径等。V2V4Real数据集有助于推动自动驾驶技术的发展,提高驾驶安全性和效率,为L4的到来助力。

2. 数据集介绍

V2V4Real为自动驾驶领域的V2V协同感知提供了首个大规模、多模态、多任务真实世界数据集。它的主要特点包括:

  1. 由两辆L3级别的采集车在同一地点同时收集,提供多视角传感器数据流。
  2. 包含410公里的驾驶区域,收集了八十万帧数据。我们标注了其中两万帧,总共包含2万个激光雷达帧,4万个相机RGB帧,以及24万个带注释的3D bounding box,涵盖5个车辆类别。
  3. 包括多种道路类型:交叉路口、高速公路入口匝道、笔直的高速公路和笔直的城市道路。
  4. 所有场景提供高精地图。
  5. 目前支持三个协同感知任务:协同3D物体检测、协同物体跟踪以及Sim2Real领域自适应,并包含了多个SOTA模型(例如V2X-ViT[1], V2VNet[2], CoBEVT[3], AttFuse[4])进行了大规模的基准测试。结果显示,V2V协同感知在多个任务中都具有有效性。

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

3. 与现有数据集的比较

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

与现有的唯一一个现实世界的协同感知数据集DAIR-V2X相比,我们提出的V2V4Real数据集具有以下优势:

  1. DAIR-V2X关注车辆与基础设施(V2I)合作应用,但不支持V2V感知。与V2I相比,V2V不需要在特定区域内预先安装传感器,因此更具灵活性和可扩展性。我们的数据集通过关注重要的V2V合作来填补这一空白。
  2. V2V4Real包括四种不同类型的道路,包括交叉口、高速入口匝道、高速直线道路和城市直线道路,覆盖了更广泛的驾驶区域和更长的里程。
  3. 我们还提供了高精(HD)地图,可以用于道路拓扑预测和语义俯视图(BEV)地图理解。
  4. 我们构建了多个基准测试,可以训练和评估最近的协同感知算法,包括3D物体检测、物体跟踪和Sim2Real领域适应,而DAIR-V2X只有一个track。
  5. 我们提供了8种最先进的合作感知算法进行基准测试,而DAIR-V2X只实现了3种基线方法。与仅限于中国大陆使用的DAIR-V2X不同,我们将在全球范围内公开所有数据、基准和模型。

4. 数据采集和标注

传感器设置:我们通过两辆改装的自动驾驶汽车收集V2V4Real数据,包括特斯拉(图2a)和福特Fusion(图2b),分别由交通研究中心(TRC)和AutonomouStuff(AStuff)公司改装。两辆汽车都配备了Velodyne VLP-32激光雷达传感器、两个单目摄像头(前后)和GPS/IMU集成系统。传感器布局配置如图2c所示,详细参数列于表2。

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

驾驶路线:两辆汽车同时在俄亥俄州哥伦布市行驶,保持在150米内的距离,确保它们的视野重叠。为了丰富传感器视角组合的多样性,我们在不同场景中改变两辆车的相对姿态。我们收集了3天的驾驶记录,包括347公里的高速公路和63公里的城市道路。驾驶路线如图8所示,其中红色路线为第1天(1至5车道的高速公路),黄色路线为第2天(1至2车道的城市道路),绿色路线为第3天(2至4车道的高速公路)。

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

坐标系:我们收集了19小时的驾驶数据。我们的数据集包括四种不同的坐标系:特斯拉和福特的激光雷达坐标系,HD地图坐标和地球固定坐标(ECEF)。我们根据每辆车的激光雷达坐标系分别标注3D边界框,这样每辆车的传感器数据也可以作为单车检测任务。我们利用两辆车上GPS提供的位置信息初始化每帧两辆车的相对姿态,HD地图的原点与每个场景的特斯拉初始帧对齐。

3D bounding box标注:我们使用SusTechPoint [4],一款功能强大的开源标注工具,为收集到的激光雷达数据标注3D边界框。我们雇佣了两组专业标注人员,一组负责初始标注,另一组进一步完善标注。总共有五个物体类别,包括汽车、面包车、皮卡、半挂车和公共汽车。对于每个物体,我们标注其7自由度3D边界框,包括质心位置的x、y、z,边框的长宽高以及yaw角度。我们还记录每个物体的驾驶状态(即动态或停车)。为了方便后续应用如跟踪和行为预测,我们为不同时间戳中的相同物体分配一致的id。由于两辆采集车辆的边界框是分别标注的,特斯拉车辆的框架中的物体可能与福特融合车辆的框架中的不同物体具有相同的id。为避免这样的问题,特斯拉中的所有物体id标注在0-1000之间,而福特融合中的id范围从1001-2000。此外,两辆采集车辆的注释文件中相同的物体可能具有不同的id。为解决这个问题,我们将不同坐标系的物体转换到统一的坐标系,并计算所有物体之间的BEV IoU。对于IoU大于某个阈值的物体,我们为它们分配相同的物体id,并统一它们的边界框大小。

地图标注:高清地图生成流程包括生成全局点云地图和矢量地图。为生成点云地图,我们将一系列点云帧融合在一起。具体来说,我们首先对每个激光雷达帧进行预处理,去除动态物体,保留静态元素。然后,应用Normal Transformation Distribution扫描匹配算法计算连续两个激光雷达帧之间的相对变换。然后,通过采用变换构建激光雷达测距仪。然而,激光雷达数据中的噪声可能导致随着帧索引的增加,估计的变换矩阵中的累积误差。因此,我们通过进一步整合车载GPS/IMU系统提供的平移和航向信息,以及应用卡尔曼滤波器来补偿这些误差。最后,将不同帧中的所有点变换到地图坐标上,形成全局点云地图。聚合的点云地图将导入RoadRunner 生成矢量地图。路线通过Roadrunner中可视化的不同颜色的强度信息绘制和推断。然后,我们输出OpenDRIVE(Xodr)地图,并将其转换为lanelet地图作为最终格式。

5. Benchmark 介绍

该数据集评估了四种在协同感知中最常采用的融合策略。

四种融合方式有:

  1. 单车无融合
  2. 后融合
  3. 前融合
  4. 中间层融合。

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

其中无融合仅使用自车的点云进行视觉推理作为基准线。在后融合中,每辆车利用自己的传感器观测数据检测3D物体,并将预测结果传递给其他车辆。然后,接收方应用非极大值抑制(NMS)生成最终输出。前融合中的车辆将直接将原始点云传输给其他协作车辆,自车将所有点云聚合到自己的坐标系中,这样可以保留完整信息,但需要较大的带宽。而在中间层融合中,协作车辆首先将其激光雷达投影到自车的坐标系中,然后使用神经特征提取器提取中间特征。之后,将编码后的特征压缩并传播给自车进行协同特征融合. V2V4Real针对一些领先的中间层融合方法进行了评测,包括AttFuse,F-Cooper,V2VNet,V2XVit和CoBEVT。

从任务层面来说,V2V4Real数据集支持多种协同感知任务,包括检测、跟踪、预测、定位等。本文关注协同3D检测、跟踪和Sim2Real迁移学习任务。协同3D目标检测任务要求用户利用来自不同车辆的多个激光雷达视角进行3D目标检测。相较于单车检测任务,合作检测面临多种特定挑战,如GPS误差、时钟异步性和带宽限制等。该任务的主要目标是设计高效的合作检测方法以应对这些挑战。在训练或测试时,其中一个采集车辆将被选为自车,另一个将把其标注的边界框转换到自车的坐标系。这样,地面真值将在统一的坐标系中定义。文章使用AP(IoU 0.5和0.7)评估车辆检测性能,使用AM评估传输成本。文章在同步和异步设置下评估所有模型,并对合作感知中最常用的融合策略进行评估(如前文所讲)。

在物体跟踪任务中,我们研究跟踪模型如何从协作系统中受益。我们采用多目标跟踪准确率(MOTA)等评估指标,实现AB3Dmot跟踪器作为基线跟踪器。

在Sim2Real领域适应任务中,我们研究如何利用领域适应方法减少合作3D检测任务中的领域差异。我们将目标领域定义为V2V4Real数据集,源领域定义为大规模仿真数据集OPV2V[3]。参与者应利用领域适应算法使合作检测模型生成领域不变特征。评估将在V2V4Real数据集的测试集上进行,指标与3D目标检测任务相同。

最终的结果如下图:

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

#优质创作者#协同感知在真实世界就不能打了?世界首款V2V4Real-汽车开发者社区

结束语

综上所述,V2V4Real数据集为自动驾驶领域的车对车(V2V)协同感知提供了一个具有里程碑意义的资源。通过两辆装备多模态传感器的车辆同时采集数据,V2V4Real数据集涵盖了丰富的场景,提供了多视角的传感器数据。在数据采集、标注和坐标系统处理方面,该数据集的设计和制作过程都经过了严格和细致的考量。V2V4Real数据集的推出将极大地促进自动驾驶协同感知的研究发展,推动算法的创新与优化,为实现完全自动驾驶水平(L5)提供更强大的支持。

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
1
收藏 1
回复
举报
回复
相关推荐