
摘要
当前最先进的跟踪算法仅依赖目标外观模型来在每一帧中定位目标。然而,当出现快速外观变化或存在干扰物等情形时,此类方法容易失效,因为仅依靠目标外观模型难以实现鲁棒的跟踪。在这些情况下,若能获取场景中其他物体的存在及其位置信息,将显著提升跟踪性能。此类场景信息可沿视频序列进行传播,并用于显式规避干扰物或剔除错误的目标候选区域。本文提出一种新型跟踪架构,能够有效利用场景信息进行目标跟踪。我们的跟踪器将此类场景信息表示为密集的局部状态向量,能够编码局部区域是目标、背景还是干扰物等语义信息。这些状态向量在视频序列中逐帧传播,并与外观模型的输出融合,以实现更精确的目标定位。我们的网络通过在视频片段上直接最大化跟踪性能进行端到端训练,从而学会高效利用场景上下文信息。所提出的方法在三个主流跟踪基准上均取得了新的最先进性能,在最新的GOT-10k数据集上达到了63.6%的平均重叠率(AO)得分。
代码仓库
visionml/pytracking
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-tracking-on-coesot | KYS | Precision Rate: 66.7 Success Rate: 58.6 |
| object-tracking-on-fe108 | KYS | Averaged Precision: 41.0 Success Rate: 26.6 |
| video-object-tracking-on-nv-vot211 | KYS | AUC: 36.02 Precision: 48.13 |