3 个月前

用于视频问答的学习情境超图

用于视频问答的学习情境超图

摘要

回答视频中复杂情境相关的问题,不仅需要捕捉角色、物体及其相互关系的存在,还需理解这些关系随时间演变的过程。情境超图(situation hyper-graph)是一种表示方法,它将视频帧中的场景建模为子图,并通过超边连接相关子图,从而以紧凑的结构化形式完整描述此类信息。本文提出一种面向视频问答(Video Question Answering, VQA)的新型架构,通过预测情境超图来回答与视频内容相关的问题,该方法被称为基于情境超图的视频问答(Situation Hyper-Graph based Video Question Answering, SHG-VQA)。为此,我们训练了一个情境超图解码器,能够从输入视频片段中隐式地识别出包含动作以及人-物或物体间关系的图结构表示,并利用预测的情境超图与问题嵌入之间的交叉注意力机制,推断出正确答案。所提出的方法采用端到端方式训练,并通过VQA损失函数(采用交叉熵)以及针对情境图预测的匈牙利匹配损失(Hungarian matching loss)进行优化。在两个具有挑战性的基准数据集AGQA和STAR上,对所提架构进行了充分评估。实验结果表明,学习底层情境超图结构能够显著提升系统在新型视频问答任务中的性能表现。

代码仓库

aurooj/shg-vqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-agqa-2-0-balancedSHG-VQA (trained from scratch)
Average Accuracy: 49.2
video-question-answering-on-situatedSHG-VQA (trained from scratch)
Average Accuracy: 39.47

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频问答的学习情境超图 | 论文 | HyperAI超神经