6 个月前

摘要

相关性在目标跟踪领域中发挥着关键作用，尤其是在近年来广受关注的基于孪生网络（Siamese-based）的跟踪器中。相关性操作是一种简单的特征融合方式，用于衡量模板图像与搜索区域之间的相似性。然而，相关性操作本质上是一种局部线性匹配过程，容易丢失语义信息，并且容易陷入局部最优，这可能成为设计高精度跟踪算法的瓶颈。是否存在比相关性更优的特征融合方法？为解决这一问题，本文受Transformer架构的启发，提出了一种新型的基于注意力机制的特征融合网络，仅通过注意力机制即可有效融合模板与搜索区域的特征。具体而言，该方法包含两个核心模块：基于自注意力机制的自上下文增强模块（ego-context augment module），以及基于交叉注意力机制的跨特征增强模块（cross-feature augment module）。最终，本文构建了一种基于类孪生网络特征提取主干、所设计的注意力融合机制以及分类与回归头的Transformer跟踪方法，命名为TransT。实验结果表明，所提出的TransT在六个具有挑战性的数据集上均取得了非常出色的性能，尤其在大规模数据集LaSOT、TrackingNet和GOT-10k上表现突出。该跟踪器在GPU上运行速度约为50帧每秒（fps）。代码与模型已开源，地址为：https://github.com/chenxin-dlut/TransT。

源 PDF