
摘要
跟踪通常采用多阶段管道,包括特征提取、目标信息融合和边界框估计。为了简化这一流程并统一特征提取和目标信息融合的过程,我们提出了一种基于变压器(transformers)的紧凑跟踪框架,称为MixFormer。我们的核心设计是利用注意力操作的灵活性,并提出了一个混合注意力模块(Mixed Attention Module, MAM),用于同时进行特征提取和目标信息融合。这种同步建模方案能够提取特定于目标的判别特征,并在目标和搜索区域之间进行广泛的通信。基于MAM,我们通过堆叠多个MAM并逐步嵌入补丁,在顶部放置一个定位头来构建MixFormer跟踪框架。此外,为了在线跟踪过程中处理多个目标模板,我们在MAM中设计了一个非对称注意力方案以降低计算成本,并提出了一种有效的分数预测模块来选择高质量的模板。我们的MixFormer在五个跟踪基准测试中取得了新的最佳性能,这些基准测试包括LaSOT、TrackingNet、VOT2020、GOT-10k和UAV123。特别是,我们的MixFormer-L在LaSOT上达到了79.9%的NP得分,在TrackingNet上达到了88.9%的NP得分,在VOT2020上达到了0.555的EAO得分。我们还进行了深入的消融研究,以证明同时进行特征提取和信息融合的有效性。代码和训练模型已公开发布在https://github.com/MCG-NJU/MixFormer。
代码仓库
MCG-NJU/MixFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-15 | MixFormer-L | EAO: 0.555 |
| video-object-tracking-on-nv-vot211 | Mixformer(ConvMAE) | AUC: 39.23 Precision: 54.20 |
| visual-object-tracking-on-avist | MixFormerL-22k | Success Rate: 56.0 |
| visual-object-tracking-on-got-10k | MixFormer-1k | Average Overlap: 71.2 Success Rate 0.5: 79.9 Success Rate 0.75: 65.8 |
| visual-object-tracking-on-got-10k | MixFormer | Average Overlap: 70.7 Success Rate 0.5: 80.0 Success Rate 0.75: 67.8 |
| visual-object-tracking-on-got-10k | MixFormer-L | Average Overlap: 75.6 Success Rate 0.5: 85.73 Success Rate 0.75: 72.8 |
| visual-object-tracking-on-lasot | MixFormer-L | AUC: 70.1 Normalized Precision: 79.9 Precision: 76.3 |
| visual-object-tracking-on-trackingnet | MixFormer-L | Accuracy: 83.9 Normalized Precision: 88.9 Precision: 83.1 |
| visual-object-tracking-on-uav123 | MixFormer | AUC: 0.704 Precision: 0.918 |