4 个月前

双注意力网络在视觉对话中用于视觉参照解析

双注意力网络在视觉对话中用于视觉参照解析

摘要

视觉对话(VisDial)是一项要求人工智能代理根据图像回答一系列问题的任务。与视觉问答(VQA)不同,这一系列问题应当能够从对话历史中捕捉时间上下文,并利用基于图像的信息。一个被称为视觉指代消解的问题涉及这些挑战,需要代理解决给定问题中的模糊指代,并在给定图像中找到相应的指代对象。本文提出了一种用于视觉指代消解的双注意力网络(DAN)。DAN由两种类型的注意力网络组成,即REFER和FIND。具体而言,REFER模块通过采用自注意力机制学习给定问题与对话历史之间的潜在关系。FIND模块以图像特征和指代感知表示(即REFER模块的输出)作为输入,并通过自下而上的注意力机制执行视觉定位。我们在VisDial v1.0和v0.9数据集上对模型进行了定性和定量评估,结果表明DAN显著优于之前的最先进模型。

代码仓库

gicheonkang/DAN-VisDial
官方
pytorch
GitHub 中提及
phellonchen/DMRM
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valDAN
MRR: 66.38
Mean Rank: 4.04
R@1: 53.33
R@10: 90.38
R@5: 82.42
visual-dialog-on-visual-dialog-v1-0-test-stdDAN
MRR (x 100): 63.2
Mean: 4.3
NDCG (x 100): 57.59
R@1: 49.63
R@10: 89.35
R@5: 79.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双注意力网络在视觉对话中用于视觉参照解析 | 论文 | HyperAI超神经