4 个月前

TubeDETR:基于Transformer的时空视频定位

TubeDETR:基于Transformer的时空视频定位

摘要

我们研究了在视频中定位与给定文本查询相对应的空间-时间管的问题。这是一个具有挑战性的任务,需要对时间、空间和多模态交互进行联合且高效的建模。为了解决这一问题,我们提出了TubeDETR,这是一种基于变压器架构的模型,灵感来源于此类模型在文本条件下的目标检测中的最新成功。我们的模型特别包括:(i) 一个高效的视频和文本编码器,该编码器能够在稀疏采样的帧上建模空间多模态交互;(ii) 一个时空解码器,能够联合执行空间-时间定位。通过广泛的消融研究,我们展示了所提出组件的优势。我们还在空间-时间视频接地任务上评估了我们的整体方法,并在具有挑战性的VidSTG和HC-STVG基准测试中展示了优于现有最佳方法的改进。代码和训练好的模型可在 https://antoyang.github.io/tubedetr.html 公开获取。

代码仓库

antoyang/TubeDETR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
spatio-temporal-video-grounding-on-hc-stvg1TubeDETR
m_vIoU: 32.4
vIoU@0.3: 49.8
vIoU@0.5: 23.5
spatio-temporal-video-grounding-on-hc-stvg2TubeDETR
Val m_vIoU: 36.4
Val vIoU@0.3: 58.8
Val vIoU@0.5: 30.6
spatio-temporal-video-grounding-on-vidstgTubeDETR
Declarative m_vIoU: 30.4
Declarative vIoU@0.3: 42.5
Declarative vIoU@0.5: 28.2
Interrogative m_vIoU: 25.7
Interrogative vIoU@0.3: 35.7
Interrogative vIoU@0.5: 23.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TubeDETR:基于Transformer的时空视频定位 | 论文 | HyperAI超神经