
摘要
视频问答(VideoQA)任务具有挑战性,因其需要建模动态视觉特征与远距离关联关系,并将这些信息与语言概念进行关联。为此,我们提出一种通用且可复用的神经单元——条件关系网络(Conditional Relation Network, CRN),作为构建复杂视频表示与推理结构的基本模块。CRN接收一组张量对象和一个条件特征作为输入,输出一组编码后的对象。通过简单地复制、重组与堆叠这些可复用单元,即可灵活构建适用于多种模态与上下文信息的模型结构。该设计支持高阶关系建模与多步推理能力。在视频问答任务中,所提出的架构为一个CRN层级结构,其不同分支代表子视频或片段,且均以同一问题作为上下文条件。在多个知名数据集上的实验评估取得了新的最先进(SoTA)性能,充分证明了构建通用推理单元在复杂领域(如视频问答)中的显著价值。
代码仓库
thaolmk54/hcrn-videoqa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-sutd-trafficqa | HCRN | 1/2: 63.79 1/4: 36.49 |
| visual-question-answering-on-msrvtt-qa-1 | HCRN | Accuracy: 0.356 |
| visual-question-answering-on-msvd-qa-1 | HCRN | Accuracy: 0.361 |