
自动驾驶点云中语言引导的三维目标检测
摘要
本文介绍了自动驾驶点云中语言引导的三维目标检测。本文解决了自动驾驶场景中三维参考表达理解(REC)问题,旨在将自然语言应用于激光雷达点云中的目标区域。先前的REC方法通常着重于两维或者三维室内区域,不适合于准确预测自动驾驶场景中被查询的三维区域的位置。此外,上限限制和高昂的计算代价促使我们探索更好的解决方案。在本工作中,我们提出了一种新的多模态视觉grounding任务,称为激光雷达Grounding。然后,我们使用一种有效的融合策略来设计一种多模态Single Shot Grounding(MSSG)方法。它通过语言特征联合地学习基于激光雷达的目标检测器,并且直接从检测器中预测目标区域,而无需任何后处理。此外,图像特征可以灵活地集成到我们的方法中,以提供丰富的纹理和颜色信息。跨模态学习通过考虑信息语言表达,使检测器能够着重于点云中的重要区域,从而获得更好的准确性和效率。在Talk2Car数据集上进行的大量实验证明了所提出方法的有效性。本文工作为基于激光雷达的grounding任务提供了更深入的见解,我们希望它为自动驾驶社区提供一个有前景的方向。
主要贡献
本文的主要贡献如下:
1)本文提出一种新的多模态视觉grounding任务,称为激光雷达Grounding,其旨在给定自然语言命令的情况下定位三维区域。据我们所知,这是首次将自然语言与三维激光雷达点云和相机图像相结合;
2)通过联合学习点云和语言特征,进一步以紧凑的方式提出了一种多模态Single Shot Grounding(MSSG)模型,该模型采用一种有效且灵活的融合方法。此外,它还能够结合图像特征来获取丰富的语义信息;
3)在使用精心设计的评估指标的Talk2Car数据集上进行实验,结果证明了本文所提出模型的有效性。我们期望这项工作为自动驾驶社区提供一个有前景的方向。
论文图片和表格
总结
本文在自动驾驶场景中提出了一项新的任务,即激光雷达Grounding,旨在将自然语言命令应用于激光雷达点云中的参考区域。为了解决这一任务,我们首先将先前的工作总结为一个新基准,即grounding-by-detection模型。这种方法遵循一个两阶段的流程:先检测,后grounding。它分别提取语言特征和区域候选特征,并且根据由另一个匹配网络生成的相似度得分来选择grounding结果。本文还提出一种端到端的方法,即多模态Single Shot Grounding(MSSG)模型。由于跨模态特征交互和融合,它能够实现端到端优化,并且更快速且更准确。我们还探索图像特征的有效性,其具有丰富的语义信息,从而实现更好的性能。在Talk2Car数据集上进行的大量实验展现了可靠的结果。我们希望本工作能够为自动驾驶社区提供一个有前景的方向。
文章转载自公众号:自动驾驶专栏
