
摘要
回答视频中复杂情境相关的问题,不仅需要捕捉角色、物体及其相互关系的存在,还需理解这些关系随时间演变的过程。情境超图(situation hyper-graph)是一种表示方法,它将视频帧中的场景建模为子图,并通过超边连接相关子图,从而以紧凑的结构化形式完整描述此类信息。本文提出一种面向视频问答(Video Question Answering, VQA)的新型架构,通过预测情境超图来回答与视频内容相关的问题,该方法被称为基于情境超图的视频问答(Situation Hyper-Graph based Video Question Answering, SHG-VQA)。为此,我们训练了一个情境超图解码器,能够从输入视频片段中隐式地识别出包含动作以及人-物或物体间关系的图结构表示,并利用预测的情境超图与问题嵌入之间的交叉注意力机制,推断出正确答案。所提出的方法采用端到端方式训练,并通过VQA损失函数(采用交叉熵)以及针对情境图预测的匈牙利匹配损失(Hungarian matching loss)进行优化。在两个具有挑战性的基准数据集AGQA和STAR上,对所提架构进行了充分评估。实验结果表明,学习底层情境超图结构能够显著提升系统在新型视频问答任务中的性能表现。
代码仓库
aurooj/shg-vqa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-agqa-2-0-balanced | SHG-VQA (trained from scratch) | Average Accuracy: 49.2 |
| video-question-answering-on-situated | SHG-VQA (trained from scratch) | Average Accuracy: 39.47 |