
摘要
视觉对话涉及基于图像回答一系列问题,同时利用对话历史作为上下文。除了视觉问答(VQA)中遇到的挑战外,视觉对话还包含更多问题,后者可以视为一轮对话。我们重点关注其中一个问题,称为视觉共指解析,它涉及确定哪些词语(通常是名词短语和代词)在图像中共同指代同一个实体/对象实例。这尤其对于代词(例如“it”)至关重要,因为对话代理必须首先将其链接到先前的共指对象(例如“boat”),然后才能依赖于该共指对象“boat”的视觉定位来推理解词“it”。以往的研究(在视觉对话领域)通过以下两种方式建模视觉共指解析:(a) 通过历史上的记忆网络隐式建模;或 (b) 在整个问题层面进行粗略解析;而没有显式地在短语层面进行细粒度解析。在这项工作中,我们提出了一种神经模块网络架构用于视觉对话,引入了两个新颖的模块——引用(Refer)和排除(Exclude)——这些模块能够在更精细的词汇层面上执行显式的、基于图像的共指解析。我们在MNIST Dialog数据集上展示了我们模型的有效性,该数据集虽然视觉上简单但在共指方面复杂,并且我们的模型达到了近乎完美的准确率。此外,在VisDial数据集上也进行了测试,这是一个包含真实图像的大规模且具有挑战性的视觉对话数据集,在此数据集上我们的模型优于其他方法,并且在定性分析中表现出更高的可解释性、基于图像性和一致性。
代码仓库
facebookresearch/corefnmn
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-visual-dialog-v0-9 | NMN [kottur2018visual] | 1 in 10 R@5: 80.1 |
| visual-dialog-on-visdial-v09-val | CorefNMN | MRR: 63.6 Mean Rank: 4.53 R@1: 50.24 R@10: 88.51 R@5: 79.81 |
| visual-dialog-on-visdial-v09-val | CorefNMN (ResNet-152) | MRR: 64.1 Mean Rank: 4.45 R@1: 50.92 R@10: 88.81 R@5: 80.18 |
| visual-dialog-on-visual-dialog-v1-0-test-std | CorefNMN (ResNet-152) | MRR (x 100): 61.50 Mean: 4.40 NDCG (x 100): 54.70 R@1: 47.55 R@10: 88.80 R@5: 78.10 |