
#优质创作者#面向交通场景的无标定BEV表示(清华&北航) 原创
摘要
在基础设施上进行有效的BEV目标检测可以极大地改善交通场景理解和车辆到基础设施(V2I)的协作感知。然而,安装在基础设施上的摄像机具有各种位姿,以前的BEV检测方法依赖于精确的标定,由于不可避免的自然因素(例如,风和雪),这在实际应用中很困难。本文提出了一种无标定BEV表示(CBR)网络,该网络实现了基于BEV表示的3D检测,而无需标定参数和额外的深度监督。具体地说利用两个多层感知器在框诱导的前景监督下将特征从透视图分离到前视图和鸟瞰图。然后,交叉视图特征融合模块根据相似度匹配来自正交视图的特征,并利用前视图特征进行BEV特征增强。DAIR-V2X上的实验结果表明,CBR在没有任何相机参数的情况下实现了可接受的性能,并且自然不受标定噪声的影响。本文希望CBR可以作为未来研究的基线,解决基础设施感知的实际挑战。
欢迎关注国内首个以自动驾驶技术栈为主线的交流学习社区!
原文出处:微信公众号【自动驾驶之心】
简介
3D目标检测是实现环境感知的关键技术之一。与基于激光雷达的方法相比,基于视觉的方法具有成本效益且易于实施。然而从2D图像中恢复3D信息是一个不适定的问题。根据何时将2D信息提升到3D,现有方法可分为三类,包括基于数据提升的方法、基于特征提升的方法和基于结果提升的方法[1]。其中大多数不是专门为基础设施设计的。与典型应用(如车辆侧环境感知)不同,基础设施侧的目标检测有两个主要挑战:1)计算资源有限;2)摄像机安装在各种位姿(图1.a),由于自然因素(如风和雪)难以获得或动态校正准确的标定参数。
在上述类别中,2D图像被直接转换为伪3D数据(例如点云),并通过基于LiDAR的管道在基于数据提升的方法[2]、[3]、[4]中进行处理,这些方法对于基础设施来说计算成本很高。基于结果提升的方法[5]、[6]、[7]、[8]、[9]、[10]基于2D透视图特征恢复3D信息,包括3D位置和尺寸,并充分利用2D检测管道的优势。尽管它们基本上可以解决上述挑战,但透视图中的特征阻碍了V2I合作感知研究的进一步发展,这只能实现结果级融合。考虑到特征级融合,基于特征提升的方法[11],[12],[13],[14],[15],[16]首先将2D图像特征转换为3D体素特征,并将其折叠以生成BEV特征。来自不同主体、时间序列和模态的BEV特征可以以物理可解释的方式融合[17],近年来,基于BEV表示的3D检测引起了极大的关注。然而,这些方法依赖于精确的相机标定(即内外参数)或额外的深度监控来辅助交叉视图特征投影,由于不可避免的标定噪声,这些方法不适用于基础设施侧感知,如果使用有噪声的参数,它们的性能将显著降低。PYVA[18]通过多层感知器(MLP)生成BEV表示,无需摄像机参数用于车辆侧的道路场景布局估计,但当迁移到基础设施侧的检测任务时,性能远远不能令人满意。
为了解决基础设施侧感知的实际挑战,论文提出了一种Calibration-free BEV Representation(CBR)网络,该网络自然不受标定精度的限制(图1.b)。具体而言,利用轻量图像主干ResNet-18提取透视图特征。面对各种相机位姿,两个MLP用于从透视图到前视图和鸟瞰图的视图解耦。视图转换由从3D边界框标签生成的框诱导的前景分割标签来监督,而无需额外的标签成本。为了补偿BEV特征沿高度维度(z轴)的信息损失,提出了一种用于使用前视图特征增强BEV特征的交叉视图特征融合模块。假设同一物体在不同视图下具有相似的特征,则根据相似性分布对正交视图的特征进行融合。
总结来说,本文的主要贡献如下:
- 论文指出了基础设施侧面感知的实际挑战,并提出了无标定BEV表示网络CBR,以解决各种安装位姿和标定噪声;
- 透视图特征通过MLP与前视图和鸟瞰图解耦,无需任何标定参数,正交特征融合基于相似性,无需额外的深度监督;
- 实验结果表明,CBR在大规模真实世界数据集DAIR-V2X上实现了基于BEV表示的可接受的检测性能,同时可以输出BEV前景分割预测。
相关工作
基于视觉的BEV目标检测
BEV目标检测方法最近受到了更多的关注,并且在性能上取得了很大的进步。然而,大多数设计用于典型的车辆侧感知,不适用于基础设施侧。基于深度的方法[11]、[12]、[20]推断深度以恢复沿BEV坐标系y轴的3D信息,但由于俯仰角,基础设施上的图像视图中的深度是沿y轴和z轴的复合信息,不能直接用于BEV检测。基于投影的方法[15],[21]不受相机位姿的影响,因为在将特征输入检测头之前,根据标定参数将特征投影到3D,然而它们的性能高度依赖于标定精度。基于Transformer的方法[14]、[13]、[22]以较高的计算成本实现了更好的性能,并且可能还需要标定参数来进行注意力引导。为了解决基础设施侧感知的实际挑战并摆脱对校准精度的依赖,论文提出CBR以无标定方式实现3D感知。
BEV表示生成
凭借简洁和物理可解释的优势,BEV表示被部署在越来越多的下游真实世界应用中,尤其是交通场景。尽管在检测任务中采用了上述方法,但分割研究中也很好地研究了如何从图像中生成BEV表示,包括基于几何的(同形图或深度)和基于学习的(MLP或Transformer)方法[17]。基于同态的方法[23]在水平面约束下,依靠物理映射实现视图投影。基于深度的方法[21],[20],[24],[12],[11]明确地利用深度分布将2D特征提升到3D空间(例如体素和点云),并且深度监督是它们的重要提示。基于学习的方法忽略了标定的几何先验。基于MLP的方法[25],[26],[18]通过MLP的全局映射能力对转换进行建模。由于强大的建模能力,最近进一步开发了基于Transformer的方法[14],[13],[22]。对于具有足够计算资源的设备来说,这将是一个相当大的选择。本文将MLP用于视图解耦,并借鉴基于深度的方法,提出了基于相似度的交叉视图融合。
CBR框架
整体结构
为了解决实际挑战,CBR通过解耦特征重构实现了特征视图标准化(图2)。从基础设施捕获的图像被馈送到图像主干中,以提取透视图特征。考虑到有限的计算资源,采用ResNet-18。通过卷积运算和平均化池运算进一步处理特征图,其中卷积运算具有3x3大小的卷积核。图像分辨率逐渐减小至60倍降采样,而通道大小增加到1024。利用全局感受野的优势,透视图特征$f_{pv}$通过FVD(特征视图解耦)模块在空间上去耦到两个正交视图。接下来,使用SCF(基于相似度的交叉视图融合)模块来匹配来自不同视图的特征,并利用前视图特征$f_{fv}$和鸟瞰视图特征$f_{bev}$生成增强的BEV特征$f_{e}$。最后$f_{e}$被送入4个检测头,用于分类和回归任务。每个检测头由基本卷积块组成,包括卷积、BN和RELU。
特征视图解耦
在现实世界场景中,安装在基础设施上的摄像机通常具有各种位姿,包括x-y-z位置和俯仰-偏航-滚动方向。与位置相比,方向(尤其是间距)将直接影响透视图特征。为了生成不同方向的统一表示,论文提出了用于特征视图解耦的FVD模块。由于不同视图的特征在空间上不对齐,与卷积运算相比,MLP可以更好地促进视图解耦。MLP结构由两个全连接的层组成,按照先前工作的实践进行部署[27],[18]。解耦的特征被馈送到四个连续的解码器层,并且特征图利用最近临插值从64倍到4倍进行上采样。之后,获得前视图特征$f_{fv}$和BEV特征$f_{bev}$:
为了在不使用标定参数的情况下引导视图去耦,分别将$f_{fv}$和$f_{bev}$进一步输入到相应的前景分割头(由基本卷积块组成)。分割预测是在框诱导的前景监督下进行的,这是通过将3D边界框投影到前视图/鸟瞰视图而生成的,而无需额外的标记成本。前景分割监督的好处有两方面。一方面,像素级监督可以有效地引导视图转换,并鼓励模块关注前景目标(例如汽车)。另一方面,BEV前景分割预测作为副产品输出,其指示交通场景的动态前景布局。
基于相似性的交叉视图融合
BEV特征可以有效地表示鸟瞰图中的前景布局。然而基于此的3D检测性能自然会受到沿z轴的信息损失的影响,特别是当视图投影没有用标定参数精确引导时。因此,有必要用前视图中的特征来增强BEV表示,主要困难是在正交视图中匹配相应的特征。
有两个启发式选项,如图3所示。假设同一目标在不同视图中的特征应该是相似的,SGF(基于相似性的全局融合)可以根据相似性全局匹配特征,但计算成本很高。为了减少两个视图之间的特征匹配的搜索空间,CPF(condense-push fusion)首先沿z轴压缩$f_{fv}$,然后利用几何约束沿y轴推送所获得的$f_c$。
为了融合CPF和SGF的优点,论文设计了SCF(基于相似度的交叉视图融合)模块,该模块将基于相似度的特征与几何约束相匹配(图2)。具体来说,只考虑具有相同x轴值的特征之间的相似性。为了降低计算成本,利用压缩特征$f_c=Avg(f_{fv})$进行特征融合,其中“$Avg()$”表示沿z轴的平均池化运算。相似度$s_{ij}$通过内积来测量:
计算出的相似度用作融合权重,以增强具有压缩前视图特征$f_c$的BEV特征$f_{bev}$:
可以假设沿y轴正交视图的特征相似性分布是隐式深度分布,因为越接近真实深度,视图之间的特征越相似。SCF桥接交叉视图特征,无需额外的深度监督。此外,基于相似性的融合间接促进了不同视图之间的空间对齐,因为相应的特征被鼓励在同一x列中。
实验
实验设置
数据集:论文在大规模真实世界协作感知数据集DAIRV2X[19]上评估了所提出的CBR模型。它提供了从各种基础设施侧摄像头捕获的12424张图像,其中包括8800张用于训练的图像和3624张用于验证的图像。论文遵循官方的拆分方案,并在验证集上报告实验结果。相机视图中的所有目标都被标记,感知范围设置为90mx90mx5m。将输入图像的大小调整为10241024的固定大小。
前景分割标签生成:为了在正交视图中生成前景分割标签,将感知范围内标记目标的每个边界框投影到鸟瞰图和前视图。生成的像素级背景GT的大小为256x256。
校准噪声:为了模拟实际环境中的自然校准噪声,论文在旋转角度中引入了几个级别的高斯噪声:
基线:论文将CBR与基于标定和无标定的BEV方法进行比较。ImVoxelNet[15]是一种典型的基于投影的检测方法,它在标定参数的指导下,将特征从透视图投影到BEV。PYVA[18]最初提出用于无标定分割。论文通过采用额外的检测头,在此基础上开发PYVA检测器。
主要结果
表I报告了CBR和基线与标定噪声之间的比较结果。IoU阈值为0.5的性能被视为主要关注。CBR在中等难度的3D检测和BEV检测任务中实现了15.7%和24.9%的mAP。一些可视化示例如图4所示。
可以看出,ImVoxelNet[15]利用准确的标定参数表现得更好。然而当噪声增加时,性能显著下降,如果随机引入小的旋转噪声(0.5度以内),性能几乎减半。与此不同,无标定方法自然不受噪声标定参数的影响,并在噪声情况下显示出优势,如图5所示。当$n_{range}$大于0.2度时,CBR在BEV检测方面具有性能优势。3D检测任务的分水岭是0.5度。论文还报告了具有更严格的IoU阈值的实验结果,IoU=0.7,并且在噪声情况下的性能趋势与IoU=0.5的一致。由于复杂的自然因素(如风和雪),基础设施侧的标定噪声是不可避免的,因此无标定方法在各种场景下更为稳健。
尽管PYVA-det也不受标定精度的限制,但3D/BEV任务的性能远远不能令人满意。论文的方法为基础设施感知实现了更好的准确性和鲁棒性平衡。
消融实验
论文进行了以下实验来研究不同的交叉视图特征融合方法的影响。表II总结了性能比较,基线为普通BEV表示,通过特征视图去耦直接获得,无需交叉视图特征融合。得益于基于相似度的融合,SGF有效地提高了BEV检测的0.9%,但3D检测的性能增长有限。CPF利用具有几何约束的前视图特征比SGF表现得更好,3D任务的性能提高到13:6%。凭借几何和相似性的优势,SCF进一步提高了两项任务的性能,分别达到15.7%和24.9%。与SGF和CPF相比,SCF的性能优势明显。
误差分析
为了更好地理解CBR,论文进一步进行了几组误差分析实验,并讨论了无标定BEV表示的局限性。
用距离进行评估:进行以下实验以分析不同感知范围下的性能(图6)。基础设施侧感知区域分为四部分,三个阈值分别为30m、60m和90m。可以看出,随着距离的增加,性能下降是不可避免的。如果只考虑60米范围内的物体,性能几乎会翻倍。注意60米范围内的性能略好于30米范围内。我们认为这种增长是由不同视图中车辆的信息量造成的。具体来说,从基础设施拍摄到的30米范围内的物体几乎是俯视图,而当延伸到60米时,它往往是侧视图。直观地说,侧视图比俯视图信息更丰富。此外在90米的范围之外,下降是明显的,这是论文BEV功能的设计代表范围。因此,检测能力受到手动设置的感知范围的限制,理论上忽略了位于感知范围之外的物体。
3D检测的误差源:与BEV检测相比,由于沿z轴的附加预测(包括位置-z和高度),3D检测的性能更差。为了分析误差的主要来源,论文通过忽略位置z或高度预测来评估消融预测。如图7所示,无论IoU阈值(0.5或0.7)如何,如果忽略位置-z的预测而不是高度预测,则得分增量更明显,这表明位置-z预测是3D检测的主要误差源。由于摄像机的安装高度不同,特别是在没有标定参数参考的情况下,很难估计基础设施感知沿z轴的位置。
BEV前景分割评价
论文进一步评估了BEV前景分割的CBR,这是特征视图解耦的副产品(表III)。当引入额外的检测头时,PYVA[18]的性能会下降。尽管CBR略低于PYVA,但仍优于PYVA-det。
结论
针对各种安装位姿和标定噪声的实际挑战,论文指出了基于标定的BEV检测方法在标定噪声下的显著性能退化,并在本文中提出了用于基础设施感知的无标定BEV表示。将提取的图像特征解耦到两个正交视图,并通过基于相似性的交叉视图融合来增强BEV表示。在真实数据集上的大量实验表明,CBR实现了更好的精度鲁棒性平衡。此外,报告了误差分析,并进一步讨论了所提出的无标定BEV表示的局限性。在未来的工作中,利用部分稳定的标定参数来提高感知性能的方法值得研究,如何利用多视图图像进行自适应相机校准也值得进一步探索。
参考
[1] Calibration-free BEV Representation for Infrastructure Perception
