
#优质创作者# 用于自动驾驶感知的多模态传感器融合方法 原创
【本文正在参加优质创作者激励计划】
@[toc]
本文将以相机(Camera)和激光雷达(Lidar)为例,介绍在自动驾驶感知任务中有多模态传感器融合方式,包括强融合和弱融合。
强融合
强融合可以分为前融合、深度融合、后融合和不对称融合。
前融合
前融合指的是对LiDAR分支的数据和相机分支的数据或特征进行融合。其中LiDAR分支的数据可以是具有反射强度的3D点、体素和由点云投影得到的2D图等。
例如,以下这篇论文将图像分支中的语义特征和LiDAR点云预处理得到的体素融合在一起,以提高目标检测和追踪模型的性能。
Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds, CVPR 2019
深度融合
深度融合是指在LiDAR分支的特征与相机分支的数据或特征进行融合。
例如,以下这篇论文使用特征提取器分别获取LiDAR点云和相机图像的特征表示,并通过一系列下游模块将特征融合以进行更准确的目标检测。
3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection, ECCV 2020
后融合
后融合指的是对多个模态分支的预测结果进行融合。
例如,以下这篇论文将来自LiDAR和相机两个分支预测结果相结合,作为最终结果。
Multimodal vehicle detection: fusing 3D-LIDAR and color camera data, Pattern Recognition Letters
不对称融合
不对称融合强调至少有一个分支占据主导地位,其他分支则用于提供辅助信息预测最终结果。
例如,以下这篇论文首先用LiDAR点云预测目标的3D候选区域,然后用候选区域和RGB图像获取目标的多视图图像,并进一步利用多视图图像的特征对之前的检测结果进行修正。
Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation, IROS 2019
弱融合
与强融合的区别在于,弱融合方法不直接从多模态分支中融合数据、特征或者目标,而是基于一定规则方法来利用一种模态的数据作为监督信号,以指导另一种模态。
例如:以下这篇论文使用图像来预测2D边界框和3D姿态参数,从而得到3D空间中多个目标候选区域,显著缩小了可行的3D区域的搜索空间。然后对候选区域进行进一步细化,得到最终预测结果。
Roarnet: A robust 3d object detection based on region approximation refinement,IV 2019
参考:
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey, arXiv:2202.02703
