6 个月前

计算机视觉

Carl Doersch Pauline Luc Yi Yang Dilara Gokay Skanda Koppula Ankush Gupta Joseph Heyward Ignacio Rocco Ross Goroshin João Carreira

摘要

为了使模型具备更深入的物理与运动理解能力，使其能够感知真实场景中刚性表面的运动与形变，具有重要意义。这一任务可形式化为“任意点追踪”（Tracking-Any-Point, TAP），要求算法能够追踪视频中刚性表面上任意一点的运动轨迹，且在空间和时间上可能具有高密度的采样。目前，TAP任务的大规模真实标注训练数据仅存在于仿真环境中，而现有仿真数据在物体种类和运动模式方面仍存在较大局限性。在本工作中，我们展示了如何利用大规模、未标注且未经筛选的真实世界数据，在几乎不改变模型架构的前提下，显著提升TAP模型的性能。我们采用自监督的师生协同（self-supervised student-teacher）训练框架，有效利用真实场景中的无标注视频数据进行模型优化。实验结果表明，所提方法在TAP-Vid基准测试中达到当前最优水平，显著超越此前的性能记录：例如，TAP-Vid-DAVIS的准确率从61.3%提升至67.4%，TAP-Vid-Kinetics从57.2%提升至62.5%。更多可视化结果请参见项目主页：https://bootstap.github.io/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Carl Doersch Pauline Luc Yi Yang Dilara Gokay Skanda Koppula Ankush Gupta Joseph Heyward Ignacio Rocco Ross Goroshin João Carreira

摘要

为了使模型具备更深入的物理与运动理解能力，使其能够感知真实场景中刚性表面的运动与形变，具有重要意义。这一任务可形式化为“任意点追踪”（Tracking-Any-Point, TAP），要求算法能够追踪视频中刚性表面上任意一点的运动轨迹，且在空间和时间上可能具有高密度的采样。目前，TAP任务的大规模真实标注训练数据仅存在于仿真环境中，而现有仿真数据在物体种类和运动模式方面仍存在较大局限性。在本工作中，我们展示了如何利用大规模、未标注且未经筛选的真实世界数据，在几乎不改变模型架构的前提下，显著提升TAP模型的性能。我们采用自监督的师生协同（self-supervised student-teacher）训练框架，有效利用真实场景中的无标注视频数据进行模型优化。实验结果表明，所提方法在TAP-Vid基准测试中达到当前最优水平，显著超越此前的性能记录：例如，TAP-Vid-DAVIS的准确率从61.3%提升至67.4%，TAP-Vid-Kinetics从57.2%提升至62.5%。更多可视化结果请参见项目主页：https://bootstap.github.io/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供