6 个月前

计算机视觉

计算机视觉

Aisha Urooj Khan Hilde Kuehne Bo Wu Kim Chheu Walid Bousselham Chuang Gan Niels Lobo Mubarak Shah

摘要

回答视频中复杂情境相关的问题，不仅需要捕捉角色、物体及其相互关系的存在，还需理解这些关系随时间演变的过程。情境超图（situation hyper-graph）是一种表示方法，它将视频帧中的场景建模为子图，并通过超边连接相关子图，从而以紧凑的结构化形式完整描述此类信息。本文提出一种面向视频问答（Video Question Answering, VQA）的新型架构，通过预测情境超图来回答与视频内容相关的问题，该方法被称为基于情境超图的视频问答（Situation Hyper-Graph based Video Question Answering, SHG-VQA）。为此，我们训练了一个情境超图解码器，能够从输入视频片段中隐式地识别出包含动作以及人-物或物体间关系的图结构表示，并利用预测的情境超图与问题嵌入之间的交叉注意力机制，推断出正确答案。所提出的方法采用端到端方式训练，并通过VQA损失函数（采用交叉熵）以及针对情境图预测的匈牙利匹配损失（Hungarian matching loss）进行优化。在两个具有挑战性的基准数据集AGQA和STAR上，对所提架构进行了充分评估。实验结果表明，学习底层情境超图结构能够显著提升系统在新型视频问答任务中的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Aisha Urooj Khan Hilde Kuehne Bo Wu Kim Chheu Walid Bousselham Chuang Gan Niels Lobo Mubarak Shah

摘要

回答视频中复杂情境相关的问题，不仅需要捕捉角色、物体及其相互关系的存在，还需理解这些关系随时间演变的过程。情境超图（situation hyper-graph）是一种表示方法，它将视频帧中的场景建模为子图，并通过超边连接相关子图，从而以紧凑的结构化形式完整描述此类信息。本文提出一种面向视频问答（Video Question Answering, VQA）的新型架构，通过预测情境超图来回答与视频内容相关的问题，该方法被称为基于情境超图的视频问答（Situation Hyper-Graph based Video Question Answering, SHG-VQA）。为此，我们训练了一个情境超图解码器，能够从输入视频片段中隐式地识别出包含动作以及人-物或物体间关系的图结构表示，并利用预测的情境超图与问题嵌入之间的交叉注意力机制，推断出正确答案。所提出的方法采用端到端方式训练，并通过VQA损失函数（采用交叉熵）以及针对情境图预测的匈牙利匹配损失（Hungarian matching loss）进行优化。在两个具有挑战性的基准数据集AGQA和STAR上，对所提架构进行了充分评估。实验结果表明，学习底层情境超图结构能够显著提升系统在新型视频问答任务中的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用于视频问答的学习情境超图 | 论文 | HyperAI超神经