
摘要
大多数深度跟踪器仍然遵循暹罗范式(Siamese paradigms)的指导,仅使用包含目标而不含任何上下文信息的模板,这使得跟踪器难以应对较大的外观变化、快速的目标移动以及相似物体的干扰。为了解决上述问题,我们提出了一种长期上下文注意力(Long-term Context Attention, LCA)模块,该模块能够在长时间帧中对目标及其上下文进行广泛的信息融合,并在增强目标特征的同时计算目标相关性。完整的上下文信息不仅包括目标的位置,还包括目标周围的环境状态。LCA利用前一帧中的目标状态来排除相似物体和复杂背景的干扰,从而准确地定位目标,提高跟踪器的鲁棒性和回归精度。通过将LCA模块嵌入Transformer中,我们构建了一个具有目标感知骨干网络的强大在线跟踪器,命名为TATrack。此外,我们还提出了一种基于历史信息分类置信度的动态在线更新算法,该算法不会增加额外的计算负担。我们的跟踪器在多个基准测试中取得了最先进的性能,在LaSOT、TrackingNet和GOT-10k上的AUC分别为71.1%,NP为89.3%,AO为73.0%。代码和训练模型可在https://github.com/hekaijie123/TATrack 获取。
代码仓库
hekaijie123/TATrack
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-tracking-on-got-10k-1 | TATrack-L-GOT | Average Overlap: 76.6 |
| video-object-tracking-on-nv-vot211 | TATrack-L | AUC: 39.29 Precision: 53.94 |
| visual-object-tracking-on-got-10k | TATrack-L-GOT | Average Overlap: 76.6 Success Rate 0.5: 85.7 Success Rate 0.75: 73.4 |
| visual-object-tracking-on-lasot | TATrack-L | AUC: 71.1 Normalized Precision: 79.1 Precision: 76.1 |
| visual-object-tracking-on-trackingnet | TATrack-L | Accuracy: 85.0 Normalized Precision: 89.3 Precision: 84.5 |
| visual-tracking-on-lasot | TATrack-L | AUC: 71.1 |
| visual-tracking-on-trackingnet | TATrack-L | ACCURACY: 0.85 Normalized Precision: 89.3 |