
摘要
我们提出 CoTracker,一种基于 Transformer 的模型,能够对长视频序列中的大量二维点进行追踪。与大多数现有方法独立追踪每个点不同,CoTracker 采用联合追踪方式,充分考虑点之间的相互依赖关系。实验表明,联合追踪显著提升了追踪的准确性与鲁棒性,使 CoTracker 能够有效追踪被遮挡的点以及超出相机视野范围的点。此外,我们为该类追踪器引入多项创新技术,包括采用 token 代理(token proxies),大幅提升了内存效率,使 CoTracker 能够在单张 GPU 上实时、同步地联合追踪多达 70,000 个点。CoTracker 是一种在线算法,以因果方式在短时窗口上运行;然而,在训练过程中,它通过展开窗口的方式作为循环网络进行学习,即使在点被遮挡或离开视场的情况下,仍能长期保持轨迹连续性。定量评估显示,CoTracker 在标准点追踪基准测试中显著优于以往的追踪方法。
代码仓库
large-trajectory-model/atm
pytorch
GitHub 中提及
facebookresearch/co-tracker
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| point-tracking-on-tap-vid-davis | CoTracker | Average Jaccard: 65.9 Average PCK: 79.4 Occlusion Accuracy: 89.9 |
| point-tracking-on-tap-vid-davis-first | CoTracker | Average Jaccard: 62.2 Average PCK: 75.7 Occlusion Accuracy: 89.3 |
| point-tracking-on-tap-vid-kinetics-first | CoTracker | Average Jaccard: 48.8 Average PCK: 64.5 Occlusion Accuracy: 85.8 |