3 个月前

用于视频问答的分层条件关系网络

用于视频问答的分层条件关系网络

摘要

视频问答(VideoQA)任务具有挑战性,因其需要建模动态视觉特征与远距离关联关系,并将这些信息与语言概念进行关联。为此,我们提出一种通用且可复用的神经单元——条件关系网络(Conditional Relation Network, CRN),作为构建复杂视频表示与推理结构的基本模块。CRN接收一组张量对象和一个条件特征作为输入,输出一组编码后的对象。通过简单地复制、重组与堆叠这些可复用单元,即可灵活构建适用于多种模态与上下文信息的模型结构。该设计支持高阶关系建模与多步推理能力。在视频问答任务中,所提出的架构为一个CRN层级结构,其不同分支代表子视频或片段,且均以同一问题作为上下文条件。在多个知名数据集上的实验评估取得了新的最先进(SoTA)性能,充分证明了构建通用推理单元在复杂领域(如视频问答)中的显著价值。

代码仓库

thaolmk54/hcrn-videoqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-sutd-trafficqaHCRN
1/2: 63.79
1/4: 36.49
visual-question-answering-on-msrvtt-qa-1HCRN
Accuracy: 0.356
visual-question-answering-on-msvd-qa-1HCRN
Accuracy: 0.361

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频问答的分层条件关系网络 | 论文 | HyperAI超神经