
摘要
我们提出了一种名为“任意点追踪”(Tracking Any Point, TAP)的新型模型,该模型能够有效追踪视频序列中任意物理表面上任意查询点的运动轨迹。我们的方法包含两个阶段:(1)匹配阶段,独立地在每一帧中为查询点寻找合适的候选匹配点;(2)精炼阶段,基于局部相关性同时更新轨迹和查询特征。在TAP-Vid基准测试中,该模型显著优于所有基线方法,在DAVIS数据集上实现了约20%的绝对平均交并比(AJ)提升。该模型支持在长时序、高分辨率视频序列上实现快速推理,在现代GPU上,我们的实现能够实现高于实时的追踪速度,并可灵活扩展至更高分辨率的视频。基于从大规模数据集中提取的高质量轨迹,我们进一步展示了一个概念验证性的扩散模型,该模型能够从静态图像生成合理运动轨迹,从而实现逼真的动画生成。项目相关的可视化结果、源代码及预训练模型均可在我们的项目主页上获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-tracking-on-davis | TAPIR (Panning MOVi-E) | Average Jaccard: 61.3 |
| visual-tracking-on-davis | TAPIR (MOVi-E) | Average Jaccard: 59.8 |
| visual-tracking-on-kinetics | TAPIR (Panning MOVi-E) | Average Jaccard: 57.2 |
| visual-tracking-on-kinetics | TAPIR (MOVi-E) | Average Jaccard: 57.1 |
| visual-tracking-on-kubric | TAPIR (MOVi-E) | Average Jaccard: 84.3 |
| visual-tracking-on-kubric | TAPIR (Panning MOVi-E) | Average Jaccard: 84.7 |
| visual-tracking-on-rgb-stacking | TAPIR (MOVi-E) | Average Jaccard: 66.2 |
| visual-tracking-on-rgb-stacking | TAPIR (Panning MOVi-E) | Average Jaccard: 62.7 |