3 个月前

TAPIR:通过帧内初始化与时间精炼实现任意点追踪

TAPIR:通过帧内初始化与时间精炼实现任意点追踪

摘要

我们提出了一种名为“任意点追踪”(Tracking Any Point, TAP)的新型模型,该模型能够有效追踪视频序列中任意物理表面上任意查询点的运动轨迹。我们的方法包含两个阶段:(1)匹配阶段,独立地在每一帧中为查询点寻找合适的候选匹配点;(2)精炼阶段,基于局部相关性同时更新轨迹和查询特征。在TAP-Vid基准测试中,该模型显著优于所有基线方法,在DAVIS数据集上实现了约20%的绝对平均交并比(AJ)提升。该模型支持在长时序、高分辨率视频序列上实现快速推理,在现代GPU上,我们的实现能够实现高于实时的追踪速度,并可灵活扩展至更高分辨率的视频。基于从大规模数据集中提取的高质量轨迹,我们进一步展示了一个概念验证性的扩散模型,该模型能够从静态图像生成合理运动轨迹,从而实现逼真的动画生成。项目相关的可视化结果、源代码及预训练模型均可在我们的项目主页上获取。

基准测试

基准方法指标
visual-tracking-on-davisTAPIR (Panning MOVi-E)
Average Jaccard: 61.3
visual-tracking-on-davisTAPIR (MOVi-E)
Average Jaccard: 59.8
visual-tracking-on-kineticsTAPIR (Panning MOVi-E)
Average Jaccard: 57.2
visual-tracking-on-kineticsTAPIR (MOVi-E)
Average Jaccard: 57.1
visual-tracking-on-kubricTAPIR (MOVi-E)
Average Jaccard: 84.3
visual-tracking-on-kubricTAPIR (Panning MOVi-E)
Average Jaccard: 84.7
visual-tracking-on-rgb-stackingTAPIR (MOVi-E)
Average Jaccard: 66.2
visual-tracking-on-rgb-stackingTAPIR (Panning MOVi-E)
Average Jaccard: 62.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TAPIR:通过帧内初始化与时间精炼实现任意点追踪 | 论文 | HyperAI超神经