
摘要
作为一项视频任务,多目标跟踪(Multiple Object Tracking, MOT)需要有效捕捉目标的时序信息。然而,现有大多数方法仅显式利用相邻帧之间的目标特征,缺乏建模长期时序信息的能力。为此,本文提出MeMOTR——一种基于长期记忆增强的Transformer架构,用于多目标跟踪。通过引入定制化的记忆注意力(memory-attention)模块,该方法能够借助长期记忆注入,使同一目标的轨迹嵌入更加稳定且具有更强的可区分性,显著提升了模型的目标关联能力。在DanceTrack数据集上的实验结果表明,MeMOTR在HOTA和AssA两项指标上分别较当前最优方法提升了7.9%和13.0%。此外,该模型在MOT17数据集上也优于其他基于Transformer的跟踪方法,并在BDD100K数据集上展现出良好的泛化性能。代码已开源,地址为:https://github.com/MCG-NJU/MeMOTR。
代码仓库
mcg-nju/memotr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-dancetrack | MeMOTR (Deformable DETR) | AssA: 52.3 DetA: 77.0 HOTA: 63.4 IDF1: 65.5 MOTA: 85.4 |
| multi-object-tracking-on-dancetrack | MeMOTR | AssA: 58.4 DetA: 80.5 HOTA: 68.5 IDF1: 71.2 MOTA: 89.9 |
| multi-object-tracking-on-sportsmot | MeMOTR (Deformable-DETR) | AssA: 57.8 DetA: 82.0 HOTA: 68.8 IDF1: 69.9 MOTA: 90.2 |
| multi-object-tracking-on-sportsmot | MeMOTR | AssA: 59.1 DetA: 83.1 HOTA: 70.0 IDF1: 71.4 MOTA: 91.5 |
| multiple-object-tracking-on-sportsmot | MeMOTR | AssA: 59.1 DetA: 83.1 HOTA: 70.0 IDF1: 71.4 MOTA: 91.5 |
| multiple-object-tracking-on-sportsmot | MeMOTR (Deformable-DETR) | AssA: 57.8 DetA: 82.0 HOTA: 68.8 IDF1: 69.9 MOTA: 90.2 |