
摘要
相关性在目标跟踪领域中发挥着关键作用,尤其是在近年来广受关注的基于孪生网络(Siamese-based)的跟踪器中。相关性操作是一种简单的特征融合方式,用于衡量模板图像与搜索区域之间的相似性。然而,相关性操作本质上是一种局部线性匹配过程,容易丢失语义信息,并且容易陷入局部最优,这可能成为设计高精度跟踪算法的瓶颈。是否存在比相关性更优的特征融合方法?为解决这一问题,本文受Transformer架构的启发,提出了一种新型的基于注意力机制的特征融合网络,仅通过注意力机制即可有效融合模板与搜索区域的特征。具体而言,该方法包含两个核心模块:基于自注意力机制的自上下文增强模块(ego-context augment module),以及基于交叉注意力机制的跨特征增强模块(cross-feature augment module)。最终,本文构建了一种基于类孪生网络特征提取主干、所设计的注意力融合机制以及分类与回归头的Transformer跟踪方法,命名为TransT。实验结果表明,所提出的TransT在六个具有挑战性的数据集上均取得了非常出色的性能,尤其在大规模数据集LaSOT、TrackingNet和GOT-10k上表现突出。该跟踪器在GPU上运行速度约为50帧每秒(fps)。代码与模型已开源,地址为:https://github.com/chenxin-dlut/TransT。
代码仓库
chenxin-dlut/TransT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-tracking-on-coesot | TransT | Precision Rate: 67.9 Success Rate: 60.5 |
| video-object-tracking-on-nv-vot211 | TransT | AUC: 36.79 Precision: 51.97 |
| visual-object-tracking-on-avist | TransT | Success Rate: 49.03 |
| visual-object-tracking-on-didi | TransT | Tracking quality: 0.465 |
| visual-object-tracking-on-lasot | TransT | AUC: 64.9 Normalized Precision: 73.8 Precision: 69.0 |
| visual-tracking-on-tnl2k | TransT | AUC: 50.7 |