6 个月前

摘要

近年来，Transformer在目标跟踪领域得到了广泛探索，并取得了当前最先进的（SOTA）性能。然而，现有研究主要集中在融合与增强卷积神经网络（CNN）所生成的特征上，而Transformer在表征学习方面的潜力尚未得到充分挖掘。本文旨在通过在经典的孪生网络（Siamese）框架下提出一种简单且高效的全注意力跟踪器——SwinTrack，进一步释放Transformer的潜力。具体而言，SwinTrack在表征学习与特征融合两个环节均采用Transformer架构，相比纯CNN或CNN-Transformer混合框架，能够实现更优的特征交互能力。此外，为进一步提升跟踪的鲁棒性，本文提出一种新颖的运动令牌（motion token），通过嵌入目标的历史运动轨迹来引入时序上下文信息，从而增强跟踪性能。该运动令牌设计轻量化，计算开销几乎可忽略，却带来了显著的性能提升。在全面的实验评估中，SwinTrack在多个主流基准上均超越了现有方法。特别是在具有挑战性的LaSOT数据集上，SwinTrack以0.713的SUC得分创下新纪录，同时在其他多个基准上也取得了SOTA结果。我们期望SwinTrack能成为Transformer在目标跟踪领域的一个坚实基线，推动后续研究的发展。相关代码与实验结果已开源，地址为：https://github.com/LitingLin/SwinTrack。

源 PDF