3 个月前

BootsTAP:面向任意点追踪的自举训练

BootsTAP:面向任意点追踪的自举训练

摘要

为了使模型具备更深入的物理与运动理解能力,使其能够感知真实场景中刚性表面的运动与形变,具有重要意义。这一任务可形式化为“任意点追踪”(Tracking-Any-Point, TAP),要求算法能够追踪视频中刚性表面上任意一点的运动轨迹,且在空间和时间上可能具有高密度的采样。目前,TAP任务的大规模真实标注训练数据仅存在于仿真环境中,而现有仿真数据在物体种类和运动模式方面仍存在较大局限性。在本工作中,我们展示了如何利用大规模、未标注且未经筛选的真实世界数据,在几乎不改变模型架构的前提下,显著提升TAP模型的性能。我们采用自监督的师生协同(self-supervised student-teacher)训练框架,有效利用真实场景中的无标注视频数据进行模型优化。实验结果表明,所提方法在TAP-Vid基准测试中达到当前最优水平,显著超越此前的性能记录:例如,TAP-Vid-DAVIS的准确率从61.3%提升至67.4%,TAP-Vid-Kinetics从57.2%提升至62.5%。更多可视化结果请参见项目主页:https://bootstap.github.io/

代码仓库

deepmind/tapnet
jax
GitHub 中提及
google-deepmind/tapnet
官方
jax
GitHub 中提及

基准测试

基准方法指标
point-tracking-on-tap-vid-davisBootsTAPIR
Average Jaccard: 66.2
Average PCK: 78.1
Occlusion Accuracy: 91
point-tracking-on-tap-vid-kineticsBootsTAPIR
Average Jaccard: 61.4
Average PCK: 74.2
Occlusion Accuracy: 89.7
point-tracking-on-tap-vid-rgb-stackingBootsTAPIR
Average Jaccard: 72.4
Average PCK: 83.1
Occlusion Accuracy: 91.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BootsTAP:面向任意点追踪的自举训练 | 论文 | HyperAI超神经