
摘要
大多数现有的RGB-T跟踪网络以分离的方式提取模态特征,缺乏模态之间的交互和相互引导。这限制了网络适应目标在不同双模态外观以及模态之间动态关系的能力。此外,这些网络所遵循的三阶段融合跟踪范式显著限制了跟踪速度。为了解决这些问题,我们提出了一种统一的单阶段Transformer RGB-T跟踪网络,即USTrack,该网络通过自注意力机制将上述三个阶段统一到一个带有双嵌入层的ViT(Vision Transformer)主干中。通过这种结构,网络可以在模态的相互作用下提取模板和搜索区域的融合特征。同时,在这些特征之间进行关系建模,高效地获得具有更好目标-背景区分能力的搜索区域融合特征用于预测。此外,我们引入了一种基于模态可靠性的新型特征选择机制,以减轻无效模态对预测的影响,进一步提高跟踪性能。在三个流行的RGB-T跟踪基准数据集上的大量实验表明,我们的方法不仅实现了新的最先进性能,还保持了最快的推理速度84.2 FPS。特别是,在VTUAV数据集的短期和长期子集上,MPR/MSR分别提高了11.1%和11.7%,以及11.3%和9.7%。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-t-tracking-on-gtot | USTrack | Precision: 93.4 Success: 78.3 |
| rgb-t-tracking-on-rgbt234 | USTrack | Precision: 87.4 Success: 65.8 |