摘要

我们介绍了视觉对话（Visual Dialog）这一任务，该任务要求人工智能代理能够以自然、对话式的语言与人类就视觉内容进行有意义的对话。具体而言，给定一张图像、一段对话历史以及一个关于该图像的问题，代理需要将问题与图像相关联，从历史中推断上下文，并准确回答问题。视觉对话在一定程度上脱离了特定的下游任务，可以作为机器智能的一般测试手段；同时，它又足够基于视觉，使得可以对单个响应进行客观评估并衡量基准进展。我们开发了一种新颖的两人聊天数据收集协议，以构建大规模的视觉对话数据集（VisDial）。VisDial v0.9 已经发布，包含来自 COCO 的约 12 万张图像上的 1 段包含 10 个问答对的对话，总计约 120 万个对话问答对。我们为视觉对话引入了一系列神经编码器-解码器模型，包括三种编码器——晚期融合（Late Fusion）、层次递归编码器（Hierarchical Recurrent Encoder）和记忆网络（Memory Network），以及两种解码器（生成式和判别式），这些模型在多个复杂的基线模型上表现出色。我们提出了一种基于检索的视觉对话评估协议，在该协议中，人工智能代理被要求对一组候选答案进行排序，并根据人类回应的平均倒数排名等指标进行评估。通过人类研究，我们量化了机器和人类在视觉对话任务上的性能差距。综合所有这些工作，我们展示了首个“视觉聊天机器人”！我们的数据集、代码、训练模型和视觉聊天机器人均可在 https://visualdialog.org 获取。

源 PDF