
摘要
现有的基于Transformer的RGBT跟踪器通过利用自注意力机制提取单模态特征以及交叉注意力机制增强多模态特征交互和模板-搜索相关性计算,取得了显著的性能提升。然而,独立进行的搜索-模板相关性计算忽略了不同分支之间的一致性,这可能导致相关性权重模糊且不适当。这种做法不仅限制了单模态特征表示的能力,还损害了交叉注意力在多模态特征交互和模板-搜索相关性计算中的鲁棒性。为了解决这些问题,我们提出了一种称为跨模态调制注意力Transformer(CAFormer)的新方法,该方法在一个统一的注意力模型中执行单模态自相关、多模态特征交互和模板-搜索相关性计算,用于RGBT跟踪。具体而言,我们首先为每个模态独立生成相关图,并将其输入设计好的相关调制增强模块,通过寻找不同模态之间的共识来调整不准确的相关性权重。这种设计统一了自注意力和交叉注意力方案,不仅缓解了自注意力中不准确的注意权重计算问题,还消除了额外交叉注意力方案引入的冗余计算。此外,我们提出了一种协作令牌消除策略以进一步提高跟踪推理的效率和准确性。在五个公开的RGBT跟踪基准上的大量实验表明,所提出的CAFormer在性能上优于现有最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rgb-t-tracking-on-gtot | CAFormer | Precision: 91.8 Success: 76.9 |
| rgb-t-tracking-on-lasher | CAFormer | Precision: 70.0 Success: 55.6 |
| rgb-t-tracking-on-rgbt210 | CAFormer | Precision: 85.6 Success: 63.2 |
| rgb-t-tracking-on-rgbt234 | CAFormer | Precision: 88.3 Success: 66.4 |