
摘要
多目标跟踪(Multi-Object Tracking, MOT)一直是视频理解领域长期面临的挑战。一种自然且直观的解决思路是将该任务分解为两个阶段:目标检测与目标关联。目前主流方法通常依赖精心设计的启发式技术来维护轨迹信息,并计算用于目标匹配的代价矩阵。尽管这些方法能够取得显著的跟踪性能,但在复杂场景下往往需要一系列复杂的手工调优,限制了其泛化能力。我们认为,人工预设的先验知识会制约模型从特定领域数据中学习最优跟踪能力的适应性与灵活性。为此,我们提出一种全新的视角:将多目标跟踪建模为一种“上下文ID预测”任务,从而将传统的目标关联过程转化为一个端到端可训练的任务。基于这一思想,我们提出了一种简单而高效的方法——MOTIP。该方法给定一组携带ID信息的轨迹,直接对当前检测结果解码出对应的ID标签,完成关联过程。与以往依赖复杂或定制化网络架构的方法不同,MOTIP仅利用目标级别的特征作为跟踪线索,无需额外设计复杂的结构,便在多个主流基准上取得了当前最优的性能。MOTIP方法的简洁性与卓越表现为后续研究留下了广阔的发展空间,展现出作为未来研究基准的巨大潜力。相关代码与模型检查点已开源,地址为:https://github.com/MCG-NJU/MOTIP。
代码仓库
MCG-NJU/MOTIP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-dancetrack | MOTIP (DAB-Deformable DETR) | AssA: 60.8 DetA: 80.8 HOTA: 70.0 IDF1: 75.1 MOTA: 91.0 |
| multi-object-tracking-on-dancetrack | MOTIP (Deformable DETR, with CrowdHuman) | AssA: 62.8 DetA: 81.3 HOTA: 71.4 IDF1: 76.3 MOTA: 91.6 |
| multi-object-tracking-on-dancetrack | MOTIP (Deformable DETR, with DanceTrack val and CrowdHuman) | AssA: 65.9 DetA: 82.6 HOTA: 73.7 IDF1: 78.4 MOTA: 92.7 |
| multi-object-tracking-on-dancetrack | MOTIP (Deformable DETR) | AssA: 57.6 DetA: 79.4 HOTA: 67.5 IDF1: 72.2 MOTA: 90.3 |
| multi-object-tracking-on-mot17 | MOTIP (Deformable-DETR) | HOTA: 59.2 e2e-MOT: Yes |
| multiple-object-tracking-on-sportsmot | MOTIP (Deformable DETR, with SportsMOT val) | AssA: 65.4 DetA: 86.5 HOTA: 75.2 IDF1: 78.2 MOTA: 96.1 |
| multiple-object-tracking-on-sportsmot | MOTIP (Deformable DETR) | AssA: 62.0 DetA: 83.4 HOTA: 71.9 IDF1: 75.0 MOTA: 92.9 |