#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统! 原创 精华

发布于 2023-4-11 21:33
浏览
4收藏

摘要

目标跟踪(OT)旨在估计视频序列中目标目标的位置。根据目标的初始状态是由第一帧中提供的注释指定还是由类别指定,OT可以被分类为实例跟踪(例如,SOT和VOS)和类别跟踪(例如MOT、MOTS和VIS)任务。结合两个社区开发的最佳实践的优势,本文提出了一种新的tracking-with-detection范式,其中跟踪补充了检测的外观先验,而检测提供了具有候选关联边界框的跟踪。配备了这样的设计,进一步提出了一个统一的跟踪模型OmniTracker,以解决所有具有完全共享的网络架构、模型权重和推理管道的跟踪任务。在包括LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20和YTVIS19在内的7个跟踪数据集上进行的大量实验表明,Omni-Tracker实现了与特定任务和统一跟踪模型相当甚至更好的结果。

欢迎关注国内首个以自动驾驶技术栈为主线的交流学习社区!
原文出处:微信公众号【自动驾驶之心】

简介

作为计算机视觉中的一项基本任务,目标跟踪[8,39,24,4,6]具有广泛的应用前景,如增强现实和自动驾驶。目前,OT可以分为两类:1)实例跟踪(即SOT[17]和VOS[62]),其中任意类别的目标由第一帧中的注释指定,以及2)类别跟踪(即MOT[85]、MOTS[72]和VIS[90]),其中特定类别的所有对象预计将在序列中被检测到并在相邻帧之间关联。不同的设置需要具有精心设计的架构和超参数的定制方法,从而导致复杂的训练和冗余参数[88]。相比之下,人类天生就具有处理各种跟踪任务的能力。对类人人工智能日益增长的需求促使我们考虑为各种类型的跟踪任务设计统一模型的可能性。

尽管有其前景,但考虑到在两类跟踪任务中开发的主流解决方案之间的区别,实现上述目标需要付出不小的努力。在给定模板边界框的情况下,实例跟踪通常将指定目标的跟踪视为检测问题,论文将其称为tracking-as-detection。具体而言,它们要么基于SOT[39,89,56,46]的轨迹从跟踪帧中裁剪搜索区域,要么与存储VOS历史预测的时空存储器匹配[62,20,18,74]。然后将搜索区域或存储器读出馈送到检测头[14,31]或掩模解码器[20]中,以直接预测目标对象的边界框或掩模。另一方面,类别跟踪[72,3,12,42,84,99,1]广泛采用了逐检测跟踪的范式,通过顺序检测每个帧上特定类别的所有对象,并基于空间相关性和外观相似性将它们链接起来。我们在图1(a)、(b)中总结了这两种范式的管道,这表明它们之间的关键区别在于“检测器”和“跟踪器”的作用,即“跟踪器”是用空间和外观先验补充“检测器”,还是“检测器”为“跟踪器”提供候选边界框进行关联。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

本文中认为这两种方式都没有完全捕捉到跟踪的本质:与图像域中的目标检测不同,跟踪利用空间和视觉线索将检测到的目标与现有轨迹相匹配。这些结果反过来可以为下一帧的检测提供重要的参考。相比之下,纯粹利用“跟踪器”的先验来帮助“检测器”(作为检测进行跟踪)会在几次跟踪失败后导致轨迹偏差[88],而简单地应用“检测器”来独立预测每个帧上的框,“跟踪器”(通过检测跟踪)会忽略检测阶段的时间信息。

为了解决这个问题,论文引入了一种新的tracking-with-detection的跟踪范式,其中引入了参考引导的特征增强(RFE)模块,用从跟踪器获得的外观先验来补充检测器。当部署到实例跟踪任务时,通过交叉注意力,利用先前跟踪框的RoIAlign[33]特征来增强跟踪框架。而对于类别跟踪任务,考虑到目标经常被遮挡或模糊,论文转而采用前一帧的下采样特征图。这样,RFE模块不仅可以适应具有完全相同参数集的不同跟踪任务,而且还可以作为检测器的任务指示器。最后,将增强的特征输入到检测器,以对完整图像而不是裁剪区域进行目标检测。这种范式通过继承作为tracking-by-detection和tracking-as-detection的优点,使得各种跟踪任务能够统一。

配备了所提出的范式,论文进一步提出了OmniTracker,一个统一的跟踪模型。它建立在可变形DETR[103]之上,在完全共享的网络架构、模型权重和推理管道内支持五个跟踪任务,包括SOT、VOS、MOT、MOTS和VIS。最近的文献[58,79]表明,通过与局部图像特征的交互,transformer检测器中的目标查询可以丰富丰富的外观和位置信息。受此启发,论文将学习良好的查询与其相应的RoI[33]特征相结合,作为不同实例的身份嵌入。使用对比ReID损失来监督这些嵌入,以学习如何在不同帧之间关联检测到的目标。在推理过程中,为每个检测到的实例维护一个内存库,以存储历史身份嵌入,以便进行长期匹配。在7个流行的跟踪基准上进行了广泛的实验,包括LaSOT[27]、TrackingNet[61]、DAVIS16-17[63]、MOT17[59]、MOTS20[72]和YTVIS19[90],结果表明OmniTracker在各种跟踪任务上取得了新的技术水平或至少有竞争力的结果。

方法

论文的目标是在一个完全共享的网络架构、模型权重和推理管道内统一不同的跟踪任务,包括SOT、VOS、MOT、MOTS和VIS。为了实现这一点,我们将参考引导特征增强(RFE)模块插入到强大的检测器[103]中,以便用从先前跟踪结果中获得的外观先验来补充检测器。OmniTracker的总体框架如图2所示。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

结构

给定一个视频序列,跟踪的目的是估计一段时间内移动物体的位置。对于实例跟踪任务,目标在第一帧中以SOT的边界框或VOS的实例掩码M0的形式进行标注。而对于类别跟踪任务,例如MOT、MOTS和VIS,需要跟踪所有检测到的目标。以跟踪帧为输入,首先采用骨干网络来提取多尺度特征的金字塔。

RFE模块:与在静态图像中定位目标的目标检测不同,跟踪不断更新视频序列中目标的位置。这启发我们用来自先前跟踪结果的外观先验来补充跟踪帧的主干特征。论文在这里丢弃位置先验,因为目标的遮挡或移动可能导致相邻帧之间的框坐标的显著变化。更具体地说,使用$X_{t-1}$中目标的RoIAlign[33]特征来增强$X_t$的特征金字塔对于实例跟踪任务,而对于类别跟踪任务,对$X_{t-1}$的特征图进行下采样来提供时间上下文信息:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

其中$\hat{b_{t-1}}$表示$X_{t-1}$中被跟踪的框,并用第一帧中的GT框初始化。以$f^i_t$为查询,$h^i_{t-1}$为key和value,然后通过交叉注意力对它们之间的相关性进行建模:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

Deformable DETR:论文使用Deformable DETR [103]作为检测器,并使用1x1卷积生成实例掩码:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

Loss Functions

每帧检测损失:论文将目标检测公式化为集合预测问题[14103],并从最优传输的角度解决标签分配[30,84]。同时考虑分类精度和框GIoU[65]来计算transport cost。通过这种方式,每个GT被分配给具有最低成本的K个预测,其中K是为每个样本动态计算的。总的全帧检测损失是多个项的加权和:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

对比ReID损失:几项工作[93,79]揭示了与局部图像特征的交互使类似DETR的目标检测器[14103]中的可学习查询能够同时获得外观和位置信息。为此,论文将这些查询与相应的RoIAlign[33]特征相结合,用于不同帧之间的实例级关联。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

训练过程从同一视频中随机抽取参考帧,并以对比的方式学习识别身份嵌入:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

统一在线跟踪

与Unicorn[88]相反,论文在推理过程中对不同的任务采用相同的跟踪管道,其中将定位和外观信息相结合,以实现检测到的框和现有轨迹之间的关联。具体来说,为每个轨迹维护一个内存库,它存储历史身份嵌入,以利用时间信息进行更稳健的匹配。具体来说,假设在第t帧中有N个检测到的目标,并且M个轨迹具有相应的记忆库,首先计算存储在每个记忆库中的身份嵌入的时间加权和,然后计算双向相似性:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

论文还采用卡尔曼滤波器[11]作为运动模型来跟踪检测到的物体,并预测它们在跟踪帧[100,99,1]中的位置。据此,可以通过卡尔曼滤波器计算N个检测到的边界框和M个轨迹的估计位置之间的IoU。然后,具有低IoU的框被过滤掉:

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

实验

实现细节

训练:完整的训练过程由三个阶段组成:在第一阶段,在COCO[49]上预训练模型,用于Unicorn[88]之后的目标检测和实例分割。然后遵循VIS方法[36,83,84]中的常见做法,从COCO中随机裁剪同一图像两次,以形成伪key-reference参考帧对。最后,在各种跟踪数据集的训练分割上对所提出的OmniTracker进行了微调,在此期间,两幅图像分别作为关键帧和参考帧随机采样。请注意,论文将COCO[49]视为一个额外的下游数据集,并对其进行联合训练,以使训练过程更加稳定。我们为COCO、SOT(TrackingNet[61]、LaSOT[27]、GOT10K[35])、VOS(DAVIS17[63])、MOT(MOT17[59])、MOTS(MOTS20[72])和VIS(YTVIS19[90])实现了6个数据加载器,并迭代地将其中一个馈送到模型中进行联合训练。我们对不同的任务使用不同的分类器,并将SOT和VOS的类别注释设置为0。采用多尺度训练,最短边在736到864之间,如下[88]。三个阶段的批量大小分别为32、32和16,训练迭代次数分别为185k、148k和144k。使用AdamW[53]对参数进行了优化。对于三个阶段,初始学习率都设置为1e-4,并且在148k、59.2k和8k迭代之后衰减0.1。公式1中的RoI大小和下采样的大小都被设置为7。我们在主要实验中采用Swin Transformer[51]-Tiny和Swin Transformer Large作为主干,在消融中采用Swin-Transformer Tiny作为主干。由于Unicorn[88]只报告了以ConvNeXt[52]-Lage为骨干的结果,为了进行公平的比较,我们还复制了他们以Swin Transformer Tiny[51]为骨干的方法,称为Unicorn-T。注意,除非另有说明,否则我们对MOT17的MOT验证分割进行消融研究。

推论:在推理过程中,将前文中提到的内存组实现为先进先出(FIFO)队列。请注意,对于实例跟踪任务,论文在第一帧的内存中存储IoU与地面实况框的IoU最高的框的身份嵌入,并在内存更新期间始终保留它。对于SOT、VOS、MOT(S)和VIS,内存大小设置为64、64、32和3。

接下来将报告OmniTracker在各种跟踪任务中的性能。对于每个基准,特定任务方法的最佳性能用蓝色表示,而统一模型的最佳结果用红色表示。

实例跟踪任务评估

单目标跟踪

表1在两个大规模SOT基准上将OmniTracker与SOT特定和统一的跟踪方法进行了比较:LaSOT[27]包含1120个训练序列和280个测试序列,TrackingNet[61]包含训练集中的30k个序列和测试集中的511个序列。报告了成功率(Suc)、精度(P)和归一化精度($P_{norm}$)。可以看到,使用Swin Tiny作为主干,OmniTracker在这两个数据集上的Pnorm分别比Unicorn[88]高0.4%和0.5%。当采用更大的主干时,保持了与统一模型相比的优势,并实现了与SOT特定模型相比具有竞争力的结果。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

视频目标分割

与SOT相比,VOS是一个逐像素的分类问题,需要模型捕获更多细粒度的信息。论文在单目标VOS基准DAVIS 2016[63]及其多目标扩展DAVIS 2017上对OmniTracker进行了评估。使用了流行的指标,包括平均Jaccard J指数、平均边界F分数以及它们的平均值J&F。请注意,还报告了几种多任务实例跟踪器的结果,例如SiamMask[76]、D3S[54]和Siam R-CNN[73],以进行比较。表2中的结果显示,OmniTracker在两个数据集上都以很大的优势击败了多任务同行和其他统一跟踪模型。就J&F而言,论文在DAVIS16和17上分别超过Unicorn[88]1.1%和1.8%。尽管我们与特定任务的VOS方法之间仍存在一些差距,但OmniTracker可以同时解决多个跟踪任务,因此具有更高的灵活性。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

类别跟踪任务评估

多目标跟踪

论文在最流行的数据集MOT17[59]上执行多目标跟踪,该数据集专注于拥挤场景中的行人跟踪。MOT17包括训练集中的7个序列和测试集中的7个子序列。报告了六个代表性指标用于定量比较,包括多目标跟踪准确性(MOTA)、身份F1分数(IDF1)、假阳性(FP)、假阴性(FN)和身份切换(IDS)。表3中的结果显示,OmniTracker在MOTA和IDF1方面分别达到79.1%和75.6%,分别超过Unicorn[88]1.9%和0.1%。请注意,大多数最先进的MOT特定跟踪模型,例如ByteTrack[99],额外采用Cityperson[98]和ETHZ[26]进行训练,我们相信这些额外的训练数据将进一步提高我们模型的性能。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

多目标跟踪&分割

为了增加多目标跟踪的挑战,MOTS20[72]扩展了MOT17[59]数据集,增加了像素标注。我们报告了OmniTracker的结果,包括sMOTSA、身份F1评分(IDF1)、假阳性(FP)、假阴性(FN)和身份切换(IDS)。请注意,sMOTSA与MOTA的不同之处在于,它基于掩码重叠。可以从表4中观察到,OmniTracker在sMOTSA方面分别优于Point-TrackV2[87]和Unicorn[88]5.2%和2.2%,这证明了我们的方法在这项任务上的有效性。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

视频实例分割

VIS与MOTS有着相同的目标,但涵盖了更多的类别和更开放的场景。论文在YTVIS 2019[90]上评估了OmniTracker,其中包含2238个训练、302个验证和343个从YouTube收集的测试高分辨率视频片段。由于现有的统一跟踪模型无法支持VIS任务,论文只将Omni-Tracker与VIS特定的模型进行比较。表5中报告了标准度量,如AP、AP50、AP75、AR1和AR10,用于定量比较。请注意,论文使用官方发布的代码复制了IDOL-L[84],并在他们的论文中报告了复制的结果(IDOL-L)和结果(IDOL-L)。可以看到,OmniTracker在所有指标上都明显优于现有方法,例如,在mAP方面分别为0.9%和4.6%。
#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

讨论和分析

联合训练与独立训练对比:OmniTracker通过在训练期间交替地馈送来自不同数据集的批处理数据,在各种跟踪数据集上进行联合训练。为了验证联合训练对任务统一的影响,论文还分别在不同的任务上训练我们的模型,以获得几个特定于任务的模型。联合训练(Our joint)、单独训练(Ours Sep)和Unicorn[88]在几个代表性数据集上的比较结果如表6所示。可以看到,在所有任务上,联合训练始终比单独训练和独角兽训练取得更好的结果。我们假设这是因为我们在不同的任务之间实现了更大的统一,并且对来自不同来源的数据进行训练可以提高我们模型的泛化能力。此外,每秒帧数(FPS)的比较还表明,OmniTracker在推理效率方面比Unicorn具有显著优势,例如,使用Swin Tiny作为骨干的推理效率为20.9比41.7。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

RFE模块的影响:RFE通过对具有交叉注意力的目标(或参考帧)和跟踪帧之间的相关性进行建模,用外观先验来补充检测器。为了评估它的贡献,论文将其从OmniTracker中删除,并对各种任务进行实验。在没有RFE模块的情况下,TrackingNet上的$P_{norm}$和MOT17上的MOTA分别下降了1.6%和0.8%。性能下降验证了RFE模块有效地提高了模型的性能。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

论文还可视化了图4中RFE模块前后的特征图。结果表明,增强特征中的目标物体更容易区分,因此论文的检测器可以更准确地定位目标物体。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

可视化:图3中可视化了OmniTracker对不同任务的跟踪结果。对于实例跟踪任务,目标对象可以属于任何类别,例如第一行石头的发光角,这要求模型具有较强的检测和关联能力。而对于类别跟踪任务,目标物体的剧烈运动(第5行)和严重遮挡(第3行)都对模型的鲁棒性提出了巨大挑战。OmniTracker在这两类任务上的卓越性能充分证明了它的有效性。

#优质创作者#CVPR2023 | 最新范式OmniTracker:迈向跟踪大一统!-汽车开发者社区

结论

本文提出了OmniTracker,这是一个基于可变形DETR的统一跟踪模型,既解决了实例跟踪任务(即SOT和VOS),也解决了类别跟踪任务(如MOT、MOTS和VIS),具有完全共享的网络架构、模型权重和推理管道。结合上述两类任务中主要解决方案的优势,论文进一步引入了一种tracking-with-detection范式,其中跟踪用外观先验来补充检测,以更准确地定位目标,而检测则用关联的候选框来提供跟踪。在各种跟踪基准上进行的大量实验证明了所提出方法的有效性。

尽管OmniTracker在VOS任务上显著优于Unicorn[88],但特定任务模型之间仍存在差距。论文认为原因在于他们广泛采用高分辨率时空内存进行密集匹配,而本文只利用紧凑的基于查询的内存。未来将探索将两种类型的内存结合起来进行跟踪,以进一步提高VOS任务的性能。

参考

[1] OmniTracker: Unifying Object Tracking by Tracking-with-Detection

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
5
收藏 4
回复
举报
回复
相关推荐