
摘要
与仅针对图像回答单一问题的视觉问答(Visual Question Answering, VQA)任务不同,视觉对话(Visual Dialogue)涉及一系列连续问题,这些问题涵盖广泛的视觉内容,可能涉及图像中的任意对象、对象间关系或语义层面。因此,视觉对话任务的核心挑战在于学习一种更为全面且富含语义信息的图像表征,该表征能够根据不同的问题动态地关注图像中的相关区域。在本研究中,我们提出了一种新颖的模型,从视觉与语义两个视角共同刻画图像。具体而言,视觉视角用于捕捉图像的外观级信息,包括物体及其相互关系;而语义视角则使智能体能够从整体图像到局部区域,理解高层次的视觉语义。此外,在上述多视角图像特征的基础上,我们进一步设计了一种特征选择框架,能够以细粒度的方式自适应地分层提取与问题相关的信息。所提出的模型在标准视觉对话数据集上取得了当前最优的性能表现。更重要的是,通过可视化门控(gate)值,我们能够判断在回答当前问题时,视觉模态或语义模态的贡献程度,从而为理解人类在视觉对话中的认知机制提供了新的洞见。
代码仓库
JXZe/DualVD
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-dialog-on-visdial-v09-val | DualVD | MRR: 62.94 Mean Rank: 4.17 R@1: 48.64 R@10: 89.94 R@5: 80.89 |
| visual-dialog-on-visual-dialog-v1-0-test-std | DualVD | MRR (x 100): 63.23 Mean: 4.11 NDCG (x 100): 56.32 R@1: 49.25 R@10: 89.7 R@5: 80.23 |