HyperAIHyperAI

Command Palette

Search for a command to run...

BootsTAP:面向任意点追踪的自举训练

摘要

为了使模型具备更深入的物理与运动理解能力,使其能够感知真实场景中刚性表面的运动与形变,具有重要意义。这一任务可形式化为“任意点追踪”(Tracking-Any-Point, TAP),要求算法能够追踪视频中刚性表面上任意一点的运动轨迹,且在空间和时间上可能具有高密度的采样。目前,TAP任务的大规模真实标注训练数据仅存在于仿真环境中,而现有仿真数据在物体种类和运动模式方面仍存在较大局限性。在本工作中,我们展示了如何利用大规模、未标注且未经筛选的真实世界数据,在几乎不改变模型架构的前提下,显著提升TAP模型的性能。我们采用自监督的师生协同(self-supervised student-teacher)训练框架,有效利用真实场景中的无标注视频数据进行模型优化。实验结果表明,所提方法在TAP-Vid基准测试中达到当前最优水平,显著超越此前的性能记录:例如,TAP-Vid-DAVIS的准确率从61.3%提升至67.4%,TAP-Vid-Kinetics从57.2%提升至62.5%。更多可视化结果请参见项目主页:https://bootstap.github.io/


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供