
摘要
近年来,Transformer在目标跟踪领域得到了广泛探索,并取得了当前最先进的(SOTA)性能。然而,现有研究主要集中在融合与增强卷积神经网络(CNN)所生成的特征上,而Transformer在表征学习方面的潜力尚未得到充分挖掘。本文旨在通过在经典的孪生网络(Siamese)框架下提出一种简单且高效的全注意力跟踪器——SwinTrack,进一步释放Transformer的潜力。具体而言,SwinTrack在表征学习与特征融合两个环节均采用Transformer架构,相比纯CNN或CNN-Transformer混合框架,能够实现更优的特征交互能力。此外,为进一步提升跟踪的鲁棒性,本文提出一种新颖的运动令牌(motion token),通过嵌入目标的历史运动轨迹来引入时序上下文信息,从而增强跟踪性能。该运动令牌设计轻量化,计算开销几乎可忽略,却带来了显著的性能提升。在全面的实验评估中,SwinTrack在多个主流基准上均超越了现有方法。特别是在具有挑战性的LaSOT数据集上,SwinTrack以0.713的SUC得分创下新纪录,同时在其他多个基准上也取得了SOTA结果。我们期望SwinTrack能成为Transformer在目标跟踪领域的一个坚实基线,推动后续研究的发展。相关代码与实验结果已开源,地址为:https://github.com/LitingLin/SwinTrack。
代码仓库
litinglin/swintrack
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-object-tracking-on-got-10k | SwinTrack-B | Average Overlap: 69.4 Success Rate 0.5: 78 Success Rate 0.75: 64.3 |
| visual-object-tracking-on-lasot | SwinTrack-B-384 | AUC: 70.2 Normalized Precision: 78.4 Precision: 75.3 |
| visual-object-tracking-on-trackingnet | SwinTrack-B-384 | Accuracy: 84 Normalized Precision: 88.2 Precision: 83.2 |