4 个月前

TVQA+:视频问答中的时空定位

TVQA+:视频问答中的时空定位

摘要

我们介绍了时空视频问答(Spatio-Temporal Video Question Answering)这一任务,该任务要求智能系统同时检索相关时刻并检测问题中提到的视觉概念(人物和物体),以回答关于视频的自然语言问题。首先,我们在TVQA数据集的基础上增加了310,800个边界框,将视频中的对象与问题和答案中的视觉概念关联起来。我们将这个增强版本命名为TVQA+。接着,我们提出了基于空间证据和时间证据的时空回答模型(Spatio-Temporal Answerer with Grounded Evidence, STAGE),这是一个统一的框架,能够在空间域和时间域中定位证据以回答视频相关的问题。全面的实验和分析证明了我们框架的有效性,并展示了TVQA+数据集中丰富的注释如何有助于问答任务。此外,通过执行这一联合任务,我们的模型能够生成具有洞察力且可解释的时空注意力可视化结果。数据集和代码已公开发布在:http://tvqa.cs.unc.edu 和 https://github.com/jayleicn/TVQAplus。

代码仓库

jayleicn/TVQA-PLUS
官方
pytorch
GitHub 中提及
h19920918/quiz_for_day06
GitHub 中提及
jayleicn/TVQAplus
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-tvqaSTAGE (Lei et al., 2019)
Accuracy: 70.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TVQA+:视频问答中的时空定位 | 论文 | HyperAI超神经