
摘要
视觉对话(Visual Dialog)是一项具有挑战性的跨模态任务,要求模型基于给定图像对一系列具有视觉语境的问答进行连贯回应。为有效解决该任务,模型需具备对多种模态输入(如问题、对话历史和图像)的高层次理解能力。具体而言,智能体必须能够:1)准确识别问题的语义意图;2)在异构模态输入之间对齐与问题相关联的文本与视觉内容。本文提出多视角注意力网络(Multi-View Attention Network, MVAN),该模型基于注意力机制,从多个视角对异构输入进行建模。MVAN通过两个互补的模块——主题聚合(Topic Aggregation)与上下文匹配(Context Matching),有效从对话历史中捕捉与问题相关的信息,并通过一系列顺序对齐过程(即模态对齐,Modality Alignment)构建多模态表示。在VisDial v1.0数据集上的实验结果表明,所提出的模型在所有评估指标上均优于先前的最先进方法,验证了其有效性。
代码仓库
taesunwhang/MVAN-VisDial
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-dialog-on-visdial-v09-val | MVAN | MRR: 0.6765 Mean Rank: 3.73 R@1: 54.65 R@10: 91.47 R@5: 83.85 |
| visual-dialog-on-visual-dialog-v1-0-test-std | MVAN | MRR (x 100): 64.84 Mean: 3.97 NDCG (x 100): 59.37 R@1: 51.45 R@10: 90.65 R@5: 81.12 |