
摘要
尽管机器学习在视觉目标跟踪任务中得到了广泛应用,但最近基于学习的方法在很大程度上忽视了视觉跟踪本质上是一个序列级任务的事实;它们严重依赖于帧级训练,这不可避免地导致了训练和测试在数据分布和任务目标方面的一致性问题。本文介绍了一种基于强化学习的序列级训练策略,并讨论了如何通过序列级的数据采样、学习目标和数据增强设计来提高跟踪算法的准确性和鲁棒性。我们在包括LaSOT、TrackingNet和GOT-10k在内的标准基准上进行的实验表明,四种代表性跟踪模型(SiamRPN++、SiamAttn、TransT和TrDiMP)在不修改架构的情况下,通过在训练中引入所提出的方法,性能得到了一致的提升。
代码仓库
byminji/SLTtrack
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-tracking-on-nv-vot211 | SLT-TransT | AUC: 37.22 Precision: 51.70 |
| visual-object-tracking-on-got-10k | SLT-TransT | Average Overlap: 67.5 Success Rate 0.5: 76.8 Success Rate 0.75: 60.3 |
| visual-object-tracking-on-lasot | SLT-TransT | AUC: 66.8 Normalized Precision: 75.5 |
| visual-object-tracking-on-trackingnet | SLT-TransT | Accuracy: 82.8 Normalized Precision: 87.5 Precision: 81.4 |