
摘要
相似性学习已被公认为目标跟踪中的关键步骤。然而,现有的多目标跟踪方法仅以稀疏的真值匹配作为训练目标,忽略了图像中大多数具有信息量的区域。本文提出了一种准密集相似性学习(Quasi-Dense Similarity Learning),该方法在图像对中密集采样数百个目标区域,用于对比学习。我们将这一相似性学习机制与多种现有的目标检测器相结合,构建了准密集跟踪框架(Quasi-Dense Tracking, QDTrack),该框架无需进行位移回归或依赖运动先验。我们发现,由此获得的特征空间具有良好的判别性,使得在推理阶段仅通过简单的最近邻搜索即可实现高效的目标关联。此外,我们证明了该相似性学习策略并不仅限于视频数据,即使在静态输入下也能学习到有效的实例相似性,从而在未经过视频训练或未使用跟踪监督的情况下,实现具有竞争力的跟踪性能。我们在多种主流多目标跟踪(MOT)基准上进行了广泛的实验。结果表明,尽管QDTrack结构简洁,但在所有基准上均达到了与当前最先进方法相当的性能,并在大规模BDD100K MOT基准上刷新了新的性能纪录,同时对检测器引入的计算开销几乎可以忽略不计。
代码仓库
SysCV/qdtrack
pytorch
GitHub 中提及
ethvis/qd-track
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiple-object-tracking-on-bdd100k-test-1 | QDtrack | mHOTA: 41.8 mIDF1: 52.3 mMOTA: 35.6 |
| multiple-object-tracking-on-bdd100k-val | QDTrack | AssocA: 52.2 TETA: 51.3 mIDF1: 54.3 mMOTA: 42.1 |