
摘要
当前对端到端可训练计算机视觉系统的追求给视觉跟踪任务带来了重大挑战。与其他大多数视觉问题不同,跟踪需要在推理阶段在线学习一个鲁棒的目标特定外观模型。为了实现端到端可训练,目标模型的在线学习必须嵌入到跟踪架构本身中。由于这些挑战的存在,流行的Siamese范式在推理过程中仅预测目标特征模板,而忽略了背景外观信息。因此,所预测的模型在目标与背景之间的区分能力有限。我们开发了一种端到端的跟踪架构,能够充分利用目标和背景的外观信息进行目标模型预测。该架构通过设计专门的优化过程从判别学习损失中推导而来,能够在少数几次迭代中预测出强大的模型。此外,我们的方法还能够学习判别损失的关键方面。所提出的跟踪器在6个跟踪基准上达到了新的最先进水平,在VOT2018上取得了0.440的EAO分数,同时运行速度超过每秒40帧(FPS)。代码和模型可在https://github.com/visionml/pytracking 获取。
代码仓库
visionml/pytracking
官方
pytorch
GitHub 中提及
martin-danelljan/ECO
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-tracking-on-fe108 | DiMP | Averaged Precision: 85.1 Success Rate: 57.1 |
| video-object-tracking-on-nv-vot211 | DiMP-50 | AUC: 35.89 Precision: 48.68 |
| visual-object-tracking-on-got-10k | DiMP | Average Overlap: 61.1 Success Rate 0.5: 71.7 |
| visual-object-tracking-on-lasot | DiMP-50 | Precision: 68.7 |
| visual-object-tracking-on-lasot | DiMP | AUC: 56.8 Normalized Precision: 65.0 Precision: 56.7 |
| visual-object-tracking-on-trackingnet | DiMP-50 | Accuracy: 74.0 Normalized Precision: 80.1 |