
#优质创作者#双SOTA!LiDARFormer:LiDAR检测&分割统一多任务 原创
摘要
最近激光雷达感知领域出现了一种趋势,即将多个任务统一在一个强大的网络中,从而提高性能,而不是为每个任务使用单独的网络。本文介绍了一种新的基于Transformer的激光雷达多任务学习范式。所提出的LiDARFormer利用跨空间全局上下文特征信息,并利用跨任务协同作用,在多个大规模数据集和基准上提高LiDAR感知任务的性能。论文新颖的基于Transformer的框架包括跨空间Transformer模块,该模块学习2D密集鸟瞰图(BEV)和3D稀疏体素特征图之间的注意力特征。此外,论文提出了一种用于分割任务的Transformer解码器,通过利用分类特征表示来动态调整学习的特征。此外将共享Transformer解码器中的分割和检测特征与跨任务注意力层相结合,以增强和集成目标级和类级特征。LiDARFormer在大规模nuScenes和Waymo Open数据集上进行了3D检测和语义分割任务的评估,并且在这两项任务上都优于所有先前发表的方法。值得注意的是,对于单模型LiDAR方法,在具有挑战性的Waymo和nuScenes检测基准上,LiDARFormer实现了76.4%L2 mAPH和74.3%NDS的最新性能。
欢迎关注国内首个以自动驾驶技术栈为主线的交流学习社区!
原文出处:微信公众号【自动驾驶之心】
总结来说,本文的主要贡献如下:
- 在多任务网络中,当在稀疏体素特征和密集边界元特征之间转移特征时,论文提出了一个跨空间Transformer模块来改进特征学习;
- 论文提出了第一个LiDAR跨任务Transformer解码器,该解码器将学习到的信息跨目标级和类级特征嵌入进行桥接;
- 论文介绍了一种基于Transformer的粗到细网络,该网络利用Transformer解码器为激光雷达语义分割任务提取类级全局上下文信息;
- 论文在两个流行的大规模激光雷达基准上实现了最先进的3D检测和语义分割性能。
相关工作
基于体素的LiDAR点云感知:与大多数直接学习室外或室内点云数据中的点级特征的点云网络[38,39,28,54,21,57,46,71]不同,LiDAR点云感知通常需要将大规模稀疏点云转换为3D体素图[73,78]、2D BEV[60,25,70]或距离视图图[44,17,52,53,35,14]。由于点云处理中3D稀疏卷积层[59,13]的发展,基于体素的方法在高性能和高效运行时间方面正变得占主导地位。CenterPoint[65]和AFDet[19]采用了无锚设计,通过热图分类来检测物体。Cylinder3D[78]利用圆柱形体素分区来提取体素级别的特征。LargeKernel3D[10]表明,来自更大感受野的长程信息可以显著提高性能。LidarMultiNet[62]提出了一种多任务学习网络,该网络统一了不同的LiDAR感知任务。
由于在投影或体素化过程中引入的信息丢失,基于体素的方法必须在准确性和复杂性之间进行权衡。为了减轻量化误差,最近的一些方法[45,41,64,56]提出融合多视图特征图中的特征,将点云级信息与2D BEV/范围视图和3D体素特征相结合。PVRCNN[41]和SPVNAS[45]使用了两个并发的点云级和体素级特征编码分支,其中这两个特征在每个网络块处连接。RPVNet[56]通过门控融合模块在编码器-解码器分割网络中进一步组合了所有点云、体素和距离图像特征。与这些专注于细节细粒度特征的方法不同,论文的方法旨在增强基于体素的网络中的全局特征学习。
分割细化在图像域中,各种方法[27,79,8,68,66]使用多个阶段从粗略到精细地细化分割预测。ACFNet[68]提出了一个注意力类特征模块,以基于粗略分割图细化像素特征。OCR[66]进一步提出了使用像素特征和对象上下文表示之间的双向连接来丰富特征的想法。相比之下,细化模块很少用于点云语义分割。
Transformer-解码器:Transformer[47]结构近年来获得了巨大的流行。在开发2D Transformer主干[15,67]的基础上,提出了各种方法[76,72,49,11,55,69]来解决2D检测和分割问题。根据输入源的不同,视觉Transformer可分为编码器[67,72,55]和解码器[4,49,11,66,69,26]。Transformer编码器通常用作特征编码网络来取代传统的神经网络,而Transformer解码器用于提取下游任务的类级或实例级特征表示。在激光雷达领域,几种检测方法[36,61,33,40,1,37,30,74]已经开始将Transformer解码器结构集成到以前的框架中。除了性能改进外,Transformer解码器在端到端训练[36]和多帧[61,74]/模态[1,30]特征融合方面表现出巨大的潜力。然而,研究在激光雷达分割中使用Transformer Decoder的有效方法仍然是一个尚未开发的领域。本文中提出了一种新的基于Transformer解码器的类感知全局上下文细化模块,用于激光雷达分割,同时利用检测和分割解码器之间的协同作用。
方法
本节将介绍激光LiDARFormer的设计。如图2所示,框架由三部分组成:使用3D稀疏卷积的3D编码器-解码器骨干网络;一种跨空间Transformer(XSF)模块,用于提取BEV中的大规模和上下文特征;一种跨任务Transformer(XTF)解码器,其从体素和BEV特征图聚合类和对象全局上下文信息。本文的网络采用了LidarMultiNet[62]的多任务学习框架,但通过共享的跨任务注意力层进一步将分割和检测之间的全局特征相关联。
基于体素的LiDAR感知
体素化:首先将点云坐标转换为体素索引。然后使用一个简单的体素特征编码器,它只包含多层感知器(MLP)和最大池化层来生成稀疏体素特征表示:
基于稀疏体素的骨干网络:使用VoxelNet[73]作为网络的骨干,其中体素特征在编码器中逐渐下采样到原始大小的1/8。稀疏体素特征被投影到密集BEV图上,然后是2D多尺度特征提取器来提取全局信息。对于检测任务,将检测头附加到BEV特征图上,以预测目标边界框。对于分割任务,BEV特征被重新投影到体素空间,在那里使用U-Net解码器将特征图上采样回原始比例。论文用体素级标签$L^v$监督论文的模型,并在推理过程中通过去体素化步骤将预测的标签投影回点云层级。
Cross-space Transformer
如图1所示,基于体素的激光雷达检测和分割通常需要骨干网络分别在2D密集BEV空间和3D稀疏体素空间上提取特征表示。为了克服合并从这两个任务中学习到的特征的挑战,先前的多任务网络[62]提出了一个全局上下文池模块,以根据特征的位置直接映射特征,而不考虑稀疏性的差异。相反,论文提出了一种跨空间转换器模块,该模块利用可变形注意力来增强这些空间之间的特征提取,以进一步增加感受野。
如图2所示,论文使用跨空间Transformer来:1)将上一个尺度中的稀疏体素特征转换为密集BEV特征(稀疏到密集),以及2)将密集BEV特性从2D多尺度特征提取器转换为稀疏体素特性。跨空间转换器如图3所示。
采用可变形注意力[76]作为自注意力层来探索密集特征图中的全局信息。由于$F^{dense}$缺乏高度信息,由于2D多尺度特征提取器主要关注BEV级别的信息,论文开发了一个多头多高度注意力模块来学习所有高度的特征:对于在高度h的切片BEV特征图上位置的每个参考体素,可变形的自注意使用线性层来学习所有头部和高度的BEV偏移。多高度可变形自注意力的输出可以公式化为:
由于密集到稀疏交叉空间Transformer是在2D特征提取器之后应用的,它不会影响所学习的2D BEV特征,因此对提高检测性能的影响有限。为了增加2D BEV特征提取器的感受野,论文添加了一个跨空间转换器模块,以类似的方式转换为密集的BEV特征,如图3b所示。它为BEV特征提供了更多的上下文信息,BEV特征将被馈送到2D多尺度特征提取器中。
Cross-task Transformer Decoder
尽管目标检测和语义分割共享相关信息,但它们通常是在两个独立的网络结构中学习的。LidarMultiNet[62]证明,通过共享中间特征表示,可以提高检测和分割性能。然而,在多任务网络的训练期间,没有共享高级信息。为了进一步探索多任务学习的协同作用,论文建议使用共享的转换器解码器来桥接来自分割的类级信息和来自检测的对象级信息。本节首先提出了一种新的分割解码器,该解码器使用类特征嵌入来执行动态分割。然后介绍了一种通过跨任务注意力将这种分割解码器与传统的检测解码器concat起来的方法。
分割Transformer解码器:受2D图像分割中从粗到细方法[68,66]的启发,论文提出了一个类感知特征细化模块,以增强分割任务的全局信息学习。使用初始分割预测来生成类特征嵌入。然后使用具有双向交叉注意力的转换器来细化体素和类特征表示。类特征表示也作为后续分割头中的动态卷积核。
在的跨任务转换器中,使用粗略预测及其相应的BEV特征来初始化类特征嵌入。类特征嵌入根据每次扫描的粗略分割结果编码类中心信息。假设来自同一类的点云在编码的特征嵌入中具有相似或相关的特征,学习的类特征可以帮助网络区分分割头中模糊的边缘点。
与[66]类似,论文建议使用Transformer解码器来进一步提取类特征嵌入,并通过双向交叉关注同时细化原始体素特征。如图4所示,Transformer结构具有体素特征和类特征的两个平行分支:
使用标准的转换器解码器[47],包含多头自注意层、多头交叉注意层和前馈层,使用$\epsilon$作为初始查询嵌入来提取类特征。
接下来,我们使用逆Transformer解码器将编码的类特征传输回体素特征。由于体素的巨大尺寸,在体素分支中使用自注意力是不可行的。
动态卷积核传统的分割网络使用由卷积或线性层组成的分割头来将体素特征的通道大小减少到类的数量,以进行预测。在分割头中学习的权重在不同的帧之间共享。因此,分割头很难适应场景的变化条件。遵循图像实例分割的新趋势[50,49,11,26],论文直接使用学习的类特征嵌入$\epsilon '$作为卷积核来生成语义logits。
跨任务注意力:如图4所示,论文采用了经过充分研究的CenterFormer[74]的检测转换器解码器,该解码器将目标级特征表示为从BEV中心建议初始化的中心查询嵌入。初始化类特征嵌入$\epsilon$使用BEV特征。类特征和中心特征被连接起来,然后发送到共享的转换器解码器中,在那里检测任务和分割任务之间的信息通过跨任务自注意力层相互传输。由于内存限制,类特征和中央特征分别与体素和BEV特征图分开聚合特征。
实验
本节展示了论文提出的方法在两个大型公共LiDAR点云数据集上的实验结果:nuScenes数据集[3]和Waymo Open数据集[43],这两个数据集都具有3D目标边界框和逐像素语义标签注释。论文还对模型的改进和深入分析进行了详细的消融研究。补充材料中包含了更多细节和可视化。
主要结果
论文给出了nuScenes和WOD的检测和分割基准结果。测试集中其他方法的所有结果都来自文献,其中大多数方法都应用了测试时间增加(TTA)或集成方法来提高性能。除了我们的多任务网络,论文还提供了我们的模型的仅分割变化的结果,该模型仅使用分割转换器解码器进行训练。
NuScenes在表1和表2中,将LiDARFormer与其他最先进的方法在NuScene测试集上进行了比较。LiDARFormer在单个模型结果中达到了81.5%的mIoU、71.5%的mAP和74.3%的NDS的最高性能。值得注意的是,检测任务的结果在很大程度上优于所有以前的方法,尤其是在mAP度量方面。尽管LiDARFormer的分割性能仅比LidarMultiNet高0.1%,但LiDARFormers不需要第二阶段,可以通过比较进行端到端训练。为了与没有TTA影响的其他方法进行公平比较,表3中展示了nuScenes验证集的性能。我们的仅分割LiDARFormer实现了81.7%的mIoU性能,而多任务LiDARFormer将mIoU进一步提高到82.7%,SOTA检测性能NDS为70.8%。论文的方法超过了以前所有最先进的方法,这与在测试集中的结果相匹配。
Waymo开放数据集表4显示了LiDARFormer在WOD测试集上的检测结果。LiDARFormer实现了76.4%的L2 mAPH的最先进性能,甚至优于相机LiDAR融合方法和使用更多帧数的方法。表5中报告了Waymo Open数据集的验证结果。我们根据Polar-Net和Cylinder3D发布的代码复制了它们的结果进行比较。我们的仅分割LiDARFormer在验证集上实现了71.3%的mIoU性能。我们的多任务模型在分割任务上也比以前最好的多任务网络好0.3%。对于更具竞争力的检测任务,我们的方法达到了76.2%的最佳L2 mAPH结果。
消融实验
Transformer结构对分割任务的影响:表6显示了当仅针对分割任务进行训练时,论文方法中提出的每个组件的有效性。使用前文中描述的网络作为基线模型。与目前其他最先进的方法相比,这种简单的设计已经可以获得有竞争力的性能。在添加分割变换器解码器之后,在nuScenes和WOD中,mIoU分别增加了1.7%和0.3%。通过将前一帧的点连接到当前帧,结果进一步提高了2.5%和0.6%。交叉空间变换器还可以将mIoU分别提高0.9%和0.1%。
统一多任务变换器解码器的效果:表7展示了我们提出的变换器解码器在多任务网络中实现的改进。使用LidarMultiNet[62]的第一阶段结果作为基线。在检测或分割分支中添加单独的变换器解码器可以提高两个任务的性能,因为我们的多任务网络有一个共享的主干,允许在一个任务中进行改进,从而有助于特征表示学习。我们提出的共享变换器解码器通过引入跨任务注意力学习来产生优越的整体性能。跨空间变换器模块进一步提高了性能,特别是对于检测任务而言。我们还在表8中评估了我们的多任务网络的全景分割性能。即使没有专门用于全景分割的第二阶段,与之前的最佳方法LidarMultiNet相比,我们的模型也能获得有竞争力的结果。这证明了我们的多任务转换器解码器能够为两个任务生成更兼容的结果。
分析
分割解码器的分析:在表9中使用不同的变换器设计来比较论文的方法的仅分割性能。消除交叉注意力的任何一种方式都会导致较差的结果。动态卷积核设计比传统分割头高0.8%。此外,在不使用辅助分割头初始化类嵌入的情况下,性能降低0.3%。
跨空间变换器的分析表10说明了与直接映射方法相比,跨空间变换(XSF)模块在检测和分割任务中的有效性。如果用类似参数大小的额外卷积层来替换XSF,分割性能会下降0.8%。然而,当在多任务模型中仅将稀疏XSF替换为密集XSF时,分割性能在很大程度上不受影响,而检测性能则显着下降。这一发现表明,密集到稀疏和稀疏到密集的XSF对检测和分割任务的贡献不同。
图5提供了跨空间变换器中可变形偏移的可视化。当对稀疏体素使用先前的直接映射方法时,只有相同位置的特征用于在3D和2D空间之间传输特征。该方法可能不利用在密集2D BEV图中学习到的一些有用特征。相比之下,论文的方法能够在更大范围内聚集相关特征。
结论
本文提出了一种新颖有效的多任务激光雷达感知范式LiDARFormer。LiDARFormer提供了一种增强体素特征表示的新方法,并能够以更优雅和有效的方式对检测和分割任务进行联合学习。尽管设计了仅用于激光雷达输入的LiDARFormer,但论文的Transformer XSF和XTF可以简单地通过交叉注意力层扩展到学习多模态和时间特征。类似地,XSF可以在可变形注意力模块中应用多尺度特征图,以进一步提取具有较大感受野的上下文信息。LiDARFormer在竞争激烈的nuScenes和Waymo检测和分割基准上树立了最先进的新性能。我们相信,本文的工作将激励未来在这一领域进行更具创新性的研究。
参考
[1] LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception
