NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知

发布于 2023-6-19 17:35
浏览
0收藏

摘要

本文介绍了NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知。3D世界的鲁棒实时感知对自动驾驶车辆而言是至关重要的。本文介绍一种用于自动驾驶的端到端的环视相机感知系统。本文的感知系统是一种新型的多任务、多相机网络,它将多组时间同步的相机图像作为输入,并且产生丰富的3D信号集合,例如障碍物的尺寸、方向和位置、停车空间和可通行空间等。本文的感知网络是模块化且端到端的:1)输出可以直接传给下游模块,而不需要任何后处理,例如聚类和融合——提高了模型部署和车内测试的速度;2)整个网络训练在单一阶段完成——提高了模型改进和迭代的速度。该网络经过精心设计,在NVIDIA Orin SoC(系统芯片)上以53fps的速度运行时具有高精度。该网络对传感器安装变化(在一定公差范围内)具有鲁棒性,并且由于其能够在训练和测试时将标定参数作为额外的输入,因此通过有效的模型微调,可以为不同车型快速定制。更重要的是,本文所提出的网络已经成功部署,并且在实际道路上进行测试。

主要贡献

本文的贡献如下:

1)使用硬件感知神经结构搜索(NAS)对图像和鸟瞰图(BEV)特征提取网络进行了很好的定制,以实现高精度和低延迟;

2)在特征层级上完成多相机融合,这结合了早期和晚期融合方法中最佳方法。这意味着,如果一个或者多个相机在推理过程中退出,并且融合在网络内完成,则该网络仍然能够正常工作。我们的机器学习融合策略不仅避免了手动调整参数,还利用了三角测量的原理——当从多个相机观测目标时,可以提供更高的检测精度;

3)本文提出一种新型的基于多层感知器(MLP)的两维到三维uplifting模型,不依赖于深度预测,并且明确地将相机内参和外参作为输入。一旦模型经过训练,网络就可以应用于给定车辆参数的不同相机配置;

4)所有感知任务(包括可通行空间感知)都被表示为检测任务,从而可以避免代价高昂且特殊的后处理,例如聚类、边界提取、曲线拟合等。

论文图片和表格

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

NVAutoNet:自动驾驶中快速且精确的360°三维视觉感知 -汽车开发者社区

总结

大多数现有的BEV感知工作在检测精度上进行高度优化,这通常需要大量的计算资源。因此,这些模型对于计算资源非常有限的自动驾驶等现实世界应用而言是不切实际的。此外,大多数现有的BEV感知数据集和基准与现实相差甚远。例如,常用的nuScenes数据集在70米范围内具有真值标记,而自动驾驶要求检测范围达到200-300米。这进一步使得现有的BEV感知模型不适合于自动驾驶车辆。在本项工作中,我们引入NVAutoNet,其中每个模块都经过很好的优化,以提供最高的准确率和延迟平衡。本文的技术贡献包括,举一些例子,小而强大的相机主干、高效的两维到三维uplifting、多任务学习、不同平台适配性以及针对不同任务的特定训练方法。因此,NVAutoNet能够在NVIDIA Orin SoC上以53FPS的速度比实时更快速地运行,同时获得足够高的精度。

将BEV感知扩展到真正的三维感知(例如三维体积占用感知)将实现更高级别的自主性,例如L4/L5自动驾驶。但是由于三维感知需要较大内存和计算消耗,因此这种扩展非常具有挑战性。远距离感知(例如,高达300米)对于提高驾驶安全性和舒适度是有必要的。全面的场景理解不仅预测目标,还要预测它们的关系,这与将自动驾驶从高精度地图中脱离出来更为相关。


文章转载自公众号:自动驾驶专栏

分类
收藏
回复
举报
回复
相关推荐