4 个月前

使用神经模块网络在视觉对话中进行视觉共指消解

使用神经模块网络在视觉对话中进行视觉共指消解

摘要

视觉对话涉及基于图像回答一系列问题,同时利用对话历史作为上下文。除了视觉问答(VQA)中遇到的挑战外,视觉对话还包含更多问题,后者可以视为一轮对话。我们重点关注其中一个问题,称为视觉共指解析,它涉及确定哪些词语(通常是名词短语和代词)在图像中共同指代同一个实体/对象实例。这尤其对于代词(例如“it”)至关重要,因为对话代理必须首先将其链接到先前的共指对象(例如“boat”),然后才能依赖于该共指对象“boat”的视觉定位来推理解词“it”。以往的研究(在视觉对话领域)通过以下两种方式建模视觉共指解析:(a) 通过历史上的记忆网络隐式建模;或 (b) 在整个问题层面进行粗略解析;而没有显式地在短语层面进行细粒度解析。在这项工作中,我们提出了一种神经模块网络架构用于视觉对话,引入了两个新颖的模块——引用(Refer)和排除(Exclude)——这些模块能够在更精细的词汇层面上执行显式的、基于图像的共指解析。我们在MNIST Dialog数据集上展示了我们模型的有效性,该数据集虽然视觉上简单但在共指方面复杂,并且我们的模型达到了近乎完美的准确率。此外,在VisDial数据集上也进行了测试,这是一个包含真实图像的大规模且具有挑战性的视觉对话数据集,在此数据集上我们的模型优于其他方法,并且在定性分析中表现出更高的可解释性、基于图像性和一致性。

代码仓库

facebookresearch/corefnmn
tf
GitHub 中提及

基准测试

基准方法指标
common-sense-reasoning-on-visual-dialog-v0-9NMN [kottur2018visual]
1 in 10 R@5: 80.1
visual-dialog-on-visdial-v09-valCorefNMN
MRR: 63.6
Mean Rank: 4.53
R@1: 50.24
R@10: 88.51
R@5: 79.81
visual-dialog-on-visdial-v09-valCorefNMN (ResNet-152)
MRR: 64.1
Mean Rank: 4.45
R@1: 50.92
R@10: 88.81
R@5: 80.18
visual-dialog-on-visual-dialog-v1-0-test-stdCorefNMN (ResNet-152)
MRR (x 100): 61.50
Mean: 4.40
NDCG (x 100): 54.70
R@1: 47.55
R@10: 88.80
R@5: 78.10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用神经模块网络在视觉对话中进行视觉共指消解 | 论文 | HyperAI超神经