3 个月前

视频图Transformer用于视频问答

视频图Transformer用于视频问答

摘要

本文提出了一种用于视频问答(Video Question Answering, VideoQA)任务的视频图Transformer(Video Graph Transformer, VGT)模型。VGT的创新之处主要体现在两个方面:其一,设计了一种动态图Transformer模块,能够显式地建模视频中的视觉对象、对象间关系及其动态变化,从而支持复杂的时空推理;其二,采用解耦的视频与文本Transformer架构,通过独立编码视频与文本表示,并在后续进行语义相关性比较来完成问答任务,而非使用传统的跨模态纠缠Transformer进行答案分类。视觉与文本之间的交互则通过额外的跨模态交互模块实现。得益于更合理的视频编码机制与更优的问答求解策略,我们在无需预训练(pretraining-free)的设定下,验证了VGT在需要动态关系推理的VideoQA任务上显著优于现有方法。其性能甚至超越了那些基于数百万外部数据进行预训练的模型。此外,我们进一步表明,VGT在仅使用远少于现有方法数量级的自监督跨模态预训练数据时,仍能获得显著性能提升,充分展现了其在数据高效预训练方面的巨大潜力。上述结果清晰地证明了VGT的有效性与优越性,揭示了其在推动视频问答研究从粗粒度的视觉识别/描述迈向真实视频中细粒度关系推理方向的重要价值。通过全面的分析与若干启发式观察,我们期望VGT能为该领域的发展提供新的思路。相关代码已开源,地址为:https://github.com/sail-sg/VGT。

代码仓库

sail-sg/vgt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-intentqaVGT
Accuarcy: 51.3
CH: 56.0
CW: 51.4
TPu0026TN: 47.6
video-question-answering-on-next-qaVGT(PT)
Accuracy: 56.9
video-question-answering-on-next-qaVGT
Accuracy: 55.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频图Transformer用于视频问答 | 论文 | HyperAI超神经