HyperAIHyperAI

Command Palette

Search for a command to run...

用于视频问答的分层条件关系网络

Thao Minh Le Vuong Le Svetha Venkatesh Truyen Tran

摘要

视频问答(VideoQA)任务具有挑战性,因其需要建模动态视觉特征与远距离关联关系,并将这些信息与语言概念进行关联。为此,我们提出一种通用且可复用的神经单元——条件关系网络(Conditional Relation Network, CRN),作为构建复杂视频表示与推理结构的基本模块。CRN接收一组张量对象和一个条件特征作为输入,输出一组编码后的对象。通过简单地复制、重组与堆叠这些可复用单元,即可灵活构建适用于多种模态与上下文信息的模型结构。该设计支持高阶关系建模与多步推理能力。在视频问答任务中,所提出的架构为一个CRN层级结构,其不同分支代表子视频或片段,且均以同一问题作为上下文条件。在多个知名数据集上的实验评估取得了新的最先进(SoTA)性能,充分证明了构建通用推理单元在复杂领域(如视频问答)中的显著价值。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频问答的分层条件关系网络 | 论文 | HyperAI超神经