
摘要
在本文中,我们提出了一种新的跟踪架构,其中编码器-解码器变压器(Transformer)作为关键组件。编码器建模了目标对象与搜索区域之间的全局时空特征依赖关系,而解码器则学习查询嵌入以预测目标对象的空间位置。我们的方法将目标跟踪视为一个直接的边界框预测问题,无需使用任何提议或预定义的锚点。通过编码器-解码器变压器,对象预测仅使用一个简单的全卷积网络,该网络直接估计对象的角点。整个方法是端到端的,不需要任何后处理步骤,如余弦窗口和边界框平滑,从而大大简化了现有的跟踪流程。所提出的跟踪器在五个具有挑战性的短期和长期基准测试中达到了最先进的性能,并且以实时速度运行,比Siam R-CNN快6倍。代码和模型已开源,可在https://github.com/researchmm/Stark获取。
代码仓库
researchmm/Stark
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-tracking-on-nv-vot211 | STARK | AUC: 38.26 Precision: 51.37 |
| visual-object-tracking-on-avist | STARK-ST-101 | Success Rate: 50.50 |
| visual-object-tracking-on-got-10k | STARK | Average Overlap: 68.8 Success Rate 0.5: 78.1 |
| visual-object-tracking-on-lasot | STARK | AUC: 67.1 Normalized Precision: 77.0 |
| visual-object-tracking-on-trackingnet | STARK | Accuracy: 82.0 Normalized Precision: 86.9 Precision: 79.1 |