
摘要
我们介绍了视觉对话(Visual Dialog)这一任务,该任务要求人工智能代理能够以自然、对话式的语言与人类就视觉内容进行有意义的对话。具体而言,给定一张图像、一段对话历史以及一个关于该图像的问题,代理需要将问题与图像相关联,从历史中推断上下文,并准确回答问题。视觉对话在一定程度上脱离了特定的下游任务,可以作为机器智能的一般测试手段;同时,它又足够基于视觉,使得可以对单个响应进行客观评估并衡量基准进展。我们开发了一种新颖的两人聊天数据收集协议,以构建大规模的视觉对话数据集(VisDial)。VisDial v0.9 已经发布,包含来自 COCO 的约 12 万张图像上的 1 段包含 10 个问答对的对话,总计约 120 万个对话问答对。我们为视觉对话引入了一系列神经编码器-解码器模型,包括三种编码器——晚期融合(Late Fusion)、层次递归编码器(Hierarchical Recurrent Encoder)和记忆网络(Memory Network),以及两种解码器(生成式和判别式),这些模型在多个复杂的基线模型上表现出色。我们提出了一种基于检索的视觉对话评估协议,在该协议中,人工智能代理被要求对一组候选答案进行排序,并根据人类回应的平均倒数排名等指标进行评估。通过人类研究,我们量化了机器和人类在视觉对话任务上的性能差距。综合所有这些工作,我们展示了首个“视觉聊天机器人”!我们的数据集、代码、训练模型和视觉聊天机器人均可在 https://visualdialog.org 获取。
代码仓库
batra-mlp-lab/visdial-challenge-starter-pytorch
pytorch
GitHub 中提及
Cloud-CV/visual-chatbot
pytorch
GitHub 中提及
gicheonkang/gst-visdial
pytorch
GitHub 中提及
kdexd/lang-emerge-parlai
pytorch
GitHub 中提及
batra-mlp-lab/visdial-amt-chat
官方
GitHub 中提及
nonslowrunner/Visualdialogs
tf
GitHub 中提及
facebookresearch/ParlAI
pytorch
GitHub 中提及
joe-prog/https-github.com-facebookresearch-ParlAI
pytorch
GitHub 中提及
batra-mlp-lab/visdial
pytorch
GitHub 中提及
taesunwhang/MVAN-VisDial
pytorch
yuleiniu/rva
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-dialog-on-visdial-v09-val | HRE-QIH-D | MRR: 0.5846 Mean Rank: 5.72 R@1: 44.67 R@10: 84.22 R@5: 74.50 |
| visual-dialog-on-visdial-v09-val | HRE-QIH-D | MRR: 0.5807 Mean Rank: 5.78 R@1: 43.82 R@10: 84.07 R@5: 74.68 |
| visual-dialog-on-visdial-v09-val | MN-QIH-D | MRR: 0.5965 Mean Rank: 5.46 R@1: 45.55 R@10: 85.37 R@5: 76.22 |
| visual-dialog-on-visual-dialog-v1-0-test-std | HRE-QIH-D | MRR (x 100): 54.2 Mean: 6.41 NDCG (x 100): 45.5 R@1: 39.93 R@10: 81.50 R@5: 70.45 |
| visual-dialog-on-visual-dialog-v1-0-test-std | MN-QIH-D | MRR (x 100): 55.4 Mean: 5.95 NDCG (x 100): 45.3 R@1: 40.95 R@10: 82.83 R@5: 72.45 |
| visual-dialog-on-visual-dialog-v1-0-test-std | MN-QIH-D | MRR (x 100): 55.5 Mean: 5.92 NDCG (x 100): 47.5 R@1: 40.98 R@10: 83.30 R@5: 72.30 |