3 个月前

SwinTrack:一种用于Transformer跟踪的简单而强大的基线

SwinTrack:一种用于Transformer跟踪的简单而强大的基线

摘要

近年来,Transformer在目标跟踪领域得到了广泛探索,并取得了当前最先进的(SOTA)性能。然而,现有研究主要集中在融合与增强卷积神经网络(CNN)所生成的特征上,而Transformer在表征学习方面的潜力尚未得到充分挖掘。本文旨在通过在经典的孪生网络(Siamese)框架下提出一种简单且高效的全注意力跟踪器——SwinTrack,进一步释放Transformer的潜力。具体而言,SwinTrack在表征学习与特征融合两个环节均采用Transformer架构,相比纯CNN或CNN-Transformer混合框架,能够实现更优的特征交互能力。此外,为进一步提升跟踪的鲁棒性,本文提出一种新颖的运动令牌(motion token),通过嵌入目标的历史运动轨迹来引入时序上下文信息,从而增强跟踪性能。该运动令牌设计轻量化,计算开销几乎可忽略,却带来了显著的性能提升。在全面的实验评估中,SwinTrack在多个主流基准上均超越了现有方法。特别是在具有挑战性的LaSOT数据集上,SwinTrack以0.713的SUC得分创下新纪录,同时在其他多个基准上也取得了SOTA结果。我们期望SwinTrack能成为Transformer在目标跟踪领域的一个坚实基线,推动后续研究的发展。相关代码与实验结果已开源,地址为:https://github.com/LitingLin/SwinTrack。

代码仓库

litinglin/swintrack
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-object-tracking-on-got-10kSwinTrack-B
Average Overlap: 69.4
Success Rate 0.5: 78
Success Rate 0.75: 64.3
visual-object-tracking-on-lasotSwinTrack-B-384
AUC: 70.2
Normalized Precision: 78.4
Precision: 75.3
visual-object-tracking-on-trackingnetSwinTrack-B-384
Accuracy: 84
Normalized Precision: 88.2
Precision: 83.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SwinTrack:一种用于Transformer跟踪的简单而强大的基线 | 论文 | HyperAI超神经