6 个月前

计算机视觉

计算机视觉

Honglu Zhou Asim Kadav Farley Lai Alexandru Niculescu-Mizil Martin Renqiang Min Mubbasir Kapadia Hans Peter Graf

摘要

本文研究视频中时空对象中心推理（spatiotemporal object-centric reasoning）问题。我们方法的核心在于“物体恒常性”（object permanence）这一概念，即在物体移动过程中，即使其被遮挡、包含或由其他物体携带，仍能持续推断其位置的能力。现有的基于深度学习的方法在应用于视频推理任务时，往往存在时空偏差问题。为此，本文提出 Hopper 模型，该模型采用多跳 Transformer（Multi-hop Transformer）机制，实现对视频中物体恒常性的推理。给定一段视频和一个定位查询，Hopper 能够在图像帧与物体轨迹之间进行迭代式推理，自动跳过关键帧，以预测目标物体的最终位置。我们通过引入对比损失（contrastive loss）有效降低了模型的时空偏差，显著提升了推理性能。在 CATER 数据集上的实验表明，Hopper 仅需 1 FPS 的帧率，通过跳过少数关键帧，即可达到 73.2% 的 Top-1 准确率。此外，为验证模型在长时序推理方面的能力，我们构建了 CATER-h 数据集，该数据集要求模型进行多步推理才能准确定位目标物体，进一步证明了 Hopper 在复杂时空推理任务中的强大表现力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Honglu Zhou Asim Kadav Farley Lai Alexandru Niculescu-Mizil Martin Renqiang Min Mubbasir Kapadia Hans Peter Graf

摘要

本文研究视频中时空对象中心推理（spatiotemporal object-centric reasoning）问题。我们方法的核心在于“物体恒常性”（object permanence）这一概念，即在物体移动过程中，即使其被遮挡、包含或由其他物体携带，仍能持续推断其位置的能力。现有的基于深度学习的方法在应用于视频推理任务时，往往存在时空偏差问题。为此，本文提出 Hopper 模型，该模型采用多跳 Transformer（Multi-hop Transformer）机制，实现对视频中物体恒常性的推理。给定一段视频和一个定位查询，Hopper 能够在图像帧与物体轨迹之间进行迭代式推理，自动跳过关键帧，以预测目标物体的最终位置。我们通过引入对比损失（contrastive loss）有效降低了模型的时空偏差，显著提升了推理性能。在 CATER 数据集上的实验表明，Hopper 仅需 1 FPS 的帧率，通过跳过少数关键帧，即可达到 73.2% 的 Top-1 准确率。此外，为验证模型在长时序推理方面的能力，我们构建了 CATER-h 数据集，该数据集要求模型进行多步推理才能准确定位目标物体，进一步证明了 Hopper 在复杂时空推理任务中的强大表现力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供