
摘要
为了更好地模拟真实的人类对话过程,模型需要不仅基于先前的文本上下文生成对话,还需考虑视觉上下文。然而,随着多模态对话学习的发展,数据集规模逐渐成为瓶颈。在本报告中,我们发布了OpenViDial 2.0,这是一个比前一版本OpenViDial 1.0规模更大的开放领域多模态对话数据集。OpenViDial 2.0共包含从不同资源提取的560万条对话轮次,这些对话轮次均来自电影或电视剧,并且每条对话轮次都配对了相应的视觉上下文。我们希望这一大规模的数据集能够促进未来在开放领域多模态对话生成方面的研究,例如用于对话生成的多模态预训练。
代码仓库
ShannonAI/OpenViDial
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-modal-dialogue-generation-on-openvidial | CV (w/o MI) | BLEU: 1.97 Dis-1: 0.0041 Dis-2: 0.0353 Dis-3: 0.0999 Dis-4: 0.1726 |
| multi-modal-dialogue-generation-on-openvidial | NV (w/o MI) | BLEU: 1.95 Dis-1: 0.0037 Dis-2: 0.0302 Dis-3: 0.0929 Dis-4: 0.1711 |
| multi-modal-dialogue-generation-on-openvidial | NV (w/ MI) | BLEU: 1.96 Dis-1: 0.0039 Dis-2: 0.0311 Dis-3: 0.0953 Dis-4: 0.163 |
| multi-modal-dialogue-generation-on-openvidial | FV (w/o MI) | BLEU: 1.99 Dis-1: 0.0056 Dis-2: 0.0431 Dis-3: 0.125 Dis-4: 0.2215 |