
摘要
许多多目标跟踪(Multi-Object Tracking, MOT)方法利用运动信息来关联跨帧检测到的各个目标。然而,依赖滤波类算法(如卡尔曼滤波)的方法在处理线性运动场景时表现良好,却难以准确预测复杂且非线性运动目标的位置。为应对此类挑战,本文提出一种基于运动建模的MOT方法——ETTrack,其核心是一个增强型时序运动预测器(Enhanced Temporal Motion Predictor)。该预测器融合了Transformer模型与时间卷积网络(Temporal Convolutional Network, TCN),以捕捉目标的短期与长期运动模式,并基于历史运动信息预测个体目标的未来运动轨迹。此外,我们设计了一种新型的动量修正损失函数(Momentum Correction Loss),在训练过程中为模型提供关于目标运动方向的额外信息,从而帮助运动预测器快速适应运动模式的变化,提升未来运动的预测精度。实验结果表明,ETTrack在DanceTrack和SportsMOT两个基准数据集上均取得了与当前最先进跟踪器相媲美的性能,HOTA指标分别达到56.4%和74.4%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-dancetrack | ETTrack | AssA: 39.1 DetA: 81.7 HOTA: 56.4 IDF1: 57.5 MOTA: 92.2 |
| multi-object-tracking-on-sportsmot | ETTrack | AssA: 62.1 DetA: 88.8 HOTA: 74.3 IDF1: 74.5 MOTA: 96.8 |