Occ-BEV:通过三维场景重建进行多相机统一预训练

发布于 2023-6-15 18:57
浏览
0收藏

摘要

本文介绍了Occ-BEV:通过三维场景重建进行多相机统一预训练。多相机三维感知已成为自动驾驶中一个重要的研究领域,为基于激光雷达的解决方案提供了一种可行且低成本的替代方案。然而,现有的多相机算法主要依赖于单目图像预训练,它忽略了不同相机视图之间的空间和时间相关性。为了解决这个限制,我们提出了首个多相机统一预训练框架,称为Occ-BEV,其包含首先重建三维场景作为基础阶段,然后在下游任务中微调模型。具体而言,设计了一个三维解码器,其利用来自多视图图像的鸟瞰图(BEV)特征来预测三维几何结构占用,以使得模型能够获得对三维环境更为全面的理解。Occ-BEV的一个显著优势为,它可以利用大量的未标记图像-激光雷达进行预训练。本文提出的多相机统一预训练框架在多相机三维目标检测和语义场景补全等关键任务中表现良好。当与nuScenes数据集上的单目预训练方法相比,Occ-BEV在三维目标检测方面的mAP和NDS分别显著提高了2.0%和2.0%,在语义场景补全方面的mIOU也提高了0.8%。

主要贡献

本文的主要贡献如下:

1)本文提出了Occ-BEV,据我们所知,它是首个将自动驾驶感知预训练作为三维场景重建的多相机统一预训练方法;

2)本文引入三维几何占据预测作为pretext任务,其仅从多视图图像中恢复三维场景的完整占据分布;

3)本文的多相机预训练方法在学习统一表示方面表现出色,超越了单目预训练在多视图三维目标检测和语义补全任务中的性能。

论文图片和表格

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

Occ-BEV:通过三维场景重建进行多相机统一预训练 -汽车开发者社区

总结

本文定义了多相机统一预训练的任务,并且提出了首个统一的预训练算法,该算法在各种自动驾驶任务中表现出卓越的性能,例如多相机三维目标检测和周围语义场景补全。通过三维场景重建进行预训练,为增强统一表示学习和减少对标注的三维数据依赖提供了不错的解决途径。未来的工作应该着重于解决提到的限制,并且进一步提高本文方法在现实世界自动驾驶场景中的性能和适用范围。


文章转载自公众号:自动驾驶专栏

分类
收藏
回复
举报
回复
相关推荐