
摘要
我们提出 LocoTrack,一种高精度且高效的模型,专为在视频序列中追踪任意点(Tracking Any Point, TAP)的任务而设计。以往的方法通常依赖于局部2D相关图,从查询图像中的一个点建立与目标图像中局部区域的对应关系,但在均质区域或具有重复特征的区域中,此类方法常因匹配歧义而表现不佳。LocoTrack 通过一种新颖的全对对应机制——即局部4D相关性——克服了这一挑战,实现了精确的点对应关系建模。该方法结合双向对应关系与匹配平滑性,显著提升了对歧义情况的鲁棒性。此外,我们引入了一个轻量级相关编码器以提升计算效率,并采用紧凑的Transformer架构来融合长期时序信息。在所有 TAP-Vid 基准测试中,LocoTrack 均取得了前所未有的精度表现,且运行速度接近当前最先进方法的6倍。
代码仓库
ku-cvlab/locotrack
jax
GitHub 中提及
cvlab-kaist/locotrack
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| point-tracking-on-tap-vid-davis | LocoTrack-B | Average Jaccard: 69.4 Average PCK: 81.3 Occlusion Accuracy: 88.6 |
| point-tracking-on-tap-vid-davis-first | LocoTrack-B | Average Jaccard: 64.8 Average PCK: 77.4 Occlusion Accuracy: 86.2 |
| point-tracking-on-tap-vid-kinetics | LocoTrack-B | Average Jaccard: 59.1 Average PCK: 72.5 Occlusion Accuracy: 85.7 |
| point-tracking-on-tap-vid-kinetics-first | LocoTrack-B | Average Jaccard: 52.3 Average PCK: 66.4 Occlusion Accuracy: 82.1 |
| point-tracking-on-tap-vid-rgb-stacking | LocoTrack-B | Average Jaccard: 70.8 Average PCK: 83.2 Occlusion Accuracy: 84.1 |