
摘要
在线上下文推理和连续视频帧之间的关联对于视觉跟踪中的实例感知至关重要。然而,大多数当前表现最佳的跟踪器仍然依赖于参考帧和搜索帧之间稀疏的时间关系,通过离线模式进行工作。因此,它们只能在每对图像内独立交互,并建立有限的时间相关性。为了解决上述问题,我们提出了一种简单、灵活且有效的视频级跟踪流水线,命名为ODTrack,该方法以在线令牌传播的方式密集地关联视频帧的上下文关系。ODTrack接收任意长度的视频帧,以捕捉实例的空间-时间轨迹关系,并将目标的判别特征(定位信息)压缩成一个令牌序列,实现帧间关联。这一新方案带来了以下好处:1) 纯净的令牌序列可以作为下一个视频帧推理的提示,从而利用过去的信息指导未来的推理;2) 通过令牌序列的迭代传播有效避免了复杂的在线更新策略,因此我们可以实现更高效模型表示和计算。ODTrack在七个基准测试中实现了新的最先进(SOTA)性能,同时运行速度达到实时水平。代码和模型可在\url{https://github.com/GXNU-ZhongLab/ODTrack}获取。
代码仓库
gxnu-zhonglab/odtrack
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-15 | ODTrack-B | EAO: 0.581 |
| semi-supervised-video-object-segmentation-on-15 | ODTrack-L | EAO: 0.605 |
| video-object-tracking-on-nv-vot211 | ODTrack | AUC: 39.60 Precision: 55.80 |
| visual-object-tracking-on-didi | ODTrack | Tracking quality: 0.608 |
| visual-object-tracking-on-got-10k | ODTrack-B | Average Overlap: 77.0 |
| visual-object-tracking-on-got-10k | ODTrack-L | Average Overlap: 78.2 |
| visual-object-tracking-on-lasot | ODTrack-B | AUC: 73.2 |
| visual-object-tracking-on-lasot | ODTrack-L | AUC: 74.0 |
| visual-object-tracking-on-lasot-ext | ODTrack-L | AUC: 53.9 |
| visual-object-tracking-on-lasot-ext | ODTrack-B | AUC: 52.4 |
| visual-object-tracking-on-otb-2015 | ODTrack-B | AUC: 0.723 |
| visual-object-tracking-on-otb-2015 | ODTrack-L | AUC: 0.724 |
| visual-object-tracking-on-tnl2k | ODTrack-B | AUC: 60.9 |
| visual-object-tracking-on-tnl2k | ODTrack-L | AUC: 61.7 |
| visual-object-tracking-on-trackingnet | ODTrack-B | Accuracy: 85.1 |
| visual-object-tracking-on-trackingnet | ODTrack-L | Accuracy: 86.1 |