3 个月前

Hopper:用于时空推理的多跳Transformer

Hopper:用于时空推理的多跳Transformer

摘要

本文研究视频中时空对象中心推理(spatiotemporal object-centric reasoning)问题。我们方法的核心在于“物体恒常性”(object permanence)这一概念,即在物体移动过程中,即使其被遮挡、包含或由其他物体携带,仍能持续推断其位置的能力。现有的基于深度学习的方法在应用于视频推理任务时,往往存在时空偏差问题。为此,本文提出 Hopper 模型,该模型采用多跳 Transformer(Multi-hop Transformer)机制,实现对视频中物体恒常性的推理。给定一段视频和一个定位查询,Hopper 能够在图像帧与物体轨迹之间进行迭代式推理,自动跳过关键帧,以预测目标物体的最终位置。我们通过引入对比损失(contrastive loss)有效降低了模型的时空偏差,显著提升了推理性能。在 CATER 数据集上的实验表明,Hopper 仅需 1 FPS 的帧率,通过跳过少数关键帧,即可达到 73.2% 的 Top-1 准确率。此外,为验证模型在长时序推理方面的能力,我们构建了 CATER-h 数据集,该数据集要求模型进行多步推理才能准确定位目标物体,进一步证明了 Hopper 在复杂时空推理任务中的强大表现力。

代码仓库

necla-ml/cater-h
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-object-tracking-on-caterHopper
L1: 0.85
Top 1 Accuracy: 73.2
Top 5 Accuracy: 93.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Hopper:用于时空推理的多跳Transformer | 论文 | HyperAI超神经