4 个月前

视觉对话

视觉对话

摘要

我们介绍了视觉对话(Visual Dialog)这一任务,该任务要求人工智能代理能够以自然、对话式的语言与人类就视觉内容进行有意义的对话。具体而言,给定一张图像、一段对话历史以及一个关于该图像的问题,代理需要将问题与图像相关联,从历史中推断上下文,并准确回答问题。视觉对话在一定程度上脱离了特定的下游任务,可以作为机器智能的一般测试手段;同时,它又足够基于视觉,使得可以对单个响应进行客观评估并衡量基准进展。我们开发了一种新颖的两人聊天数据收集协议,以构建大规模的视觉对话数据集(VisDial)。VisDial v0.9 已经发布,包含来自 COCO 的约 12 万张图像上的 1 段包含 10 个问答对的对话,总计约 120 万个对话问答对。我们为视觉对话引入了一系列神经编码器-解码器模型,包括三种编码器——晚期融合(Late Fusion)、层次递归编码器(Hierarchical Recurrent Encoder)和记忆网络(Memory Network),以及两种解码器(生成式和判别式),这些模型在多个复杂的基线模型上表现出色。我们提出了一种基于检索的视觉对话评估协议,在该协议中,人工智能代理被要求对一组候选答案进行排序,并根据人类回应的平均倒数排名等指标进行评估。通过人类研究,我们量化了机器和人类在视觉对话任务上的性能差距。综合所有这些工作,我们展示了首个“视觉聊天机器人”!我们的数据集、代码、训练模型和视觉聊天机器人均可在 https://visualdialog.org 获取。

代码仓库

Cloud-CV/visual-chatbot
pytorch
GitHub 中提及
gicheonkang/gst-visdial
pytorch
GitHub 中提及
kdexd/lang-emerge-parlai
pytorch
GitHub 中提及
batra-mlp-lab/visdial-amt-chat
官方
GitHub 中提及
nonslowrunner/Visualdialogs
tf
GitHub 中提及
facebookresearch/ParlAI
pytorch
GitHub 中提及
batra-mlp-lab/visdial
pytorch
GitHub 中提及
yuleiniu/rva
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-dialog-on-visdial-v09-valHRE-QIH-D
MRR: 0.5846
Mean Rank: 5.72
R@1: 44.67
R@10: 84.22
R@5: 74.50
visual-dialog-on-visdial-v09-valHRE-QIH-D
MRR: 0.5807
Mean Rank: 5.78
R@1: 43.82
R@10: 84.07
R@5: 74.68
visual-dialog-on-visdial-v09-valMN-QIH-D
MRR: 0.5965
Mean Rank: 5.46
R@1: 45.55
R@10: 85.37
R@5: 76.22
visual-dialog-on-visual-dialog-v1-0-test-stdHRE-QIH-D
MRR (x 100): 54.2
Mean: 6.41
NDCG (x 100): 45.5
R@1: 39.93
R@10: 81.50
R@5: 70.45
visual-dialog-on-visual-dialog-v1-0-test-stdMN-QIH-D
MRR (x 100): 55.4
Mean: 5.95
NDCG (x 100): 45.3
R@1: 40.95
R@10: 82.83
R@5: 72.45
visual-dialog-on-visual-dialog-v1-0-test-stdMN-QIH-D
MRR (x 100): 55.5
Mean: 5.92
NDCG (x 100): 47.5
R@1: 40.98
R@10: 83.30
R@5: 72.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉对话 | 论文 | HyperAI超神经