
摘要
在视频中实现多目标跟踪依赖于对目标之间时空交互关系的有效建模。本文提出了一种名为TransMOT的解决方案,该方法利用强大的图Transformer架构,高效地建模目标间的空间与时间交互关系。TransMOT通过将跟踪目标的轨迹表示为一组稀疏加权图,构建了空间图Transformer编码器层、时间Transformer编码器层以及空间图Transformer解码器层,从而有效建模大量目标之间的交互。与传统Transformer相比,TransMOT不仅具有更高的计算效率,还实现了更优的跟踪精度。为进一步提升跟踪速度与准确性,本文还提出了一种级联关联框架,用于处理低置信度检测结果以及需要大量计算资源建模的长期遮挡问题。所提出的方法在MOT15、MOT16、MOT17和MOT20等多个基准数据集上进行了评估,均取得了当前最优的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-2dmot15-1 | STGT | IDF1: 66 MOTA: 57 |
| multi-object-tracking-on-mot16 | STGT | IDF1: 76.8 MOTA: 76.7 |
| multi-object-tracking-on-mot17 | STGT | IDF1: 75.1 MOTA: 76.7 |
| multi-object-tracking-on-mot20-1 | STGT | IDF1: 75.2 MOTA: 77.5 |