4 个月前

OpenViDial 2.0:具有视觉上下文的更大规模开放领域对话生成数据集

OpenViDial 2.0:具有视觉上下文的更大规模开放领域对话生成数据集

摘要

为了更好地模拟真实的人类对话过程,模型需要不仅基于先前的文本上下文生成对话,还需考虑视觉上下文。然而,随着多模态对话学习的发展,数据集规模逐渐成为瓶颈。在本报告中,我们发布了OpenViDial 2.0,这是一个比前一版本OpenViDial 1.0规模更大的开放领域多模态对话数据集。OpenViDial 2.0共包含从不同资源提取的560万条对话轮次,这些对话轮次均来自电影或电视剧,并且每条对话轮次都配对了相应的视觉上下文。我们希望这一大规模的数据集能够促进未来在开放领域多模态对话生成方面的研究,例如用于对话生成的多模态预训练。

代码仓库

ShannonAI/OpenViDial
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-modal-dialogue-generation-on-openvidialCV (w/o MI)
BLEU: 1.97
Dis-1: 0.0041
Dis-2: 0.0353
Dis-3: 0.0999
Dis-4: 0.1726
multi-modal-dialogue-generation-on-openvidialNV (w/o MI)
BLEU: 1.95
Dis-1: 0.0037
Dis-2: 0.0302
Dis-3: 0.0929
Dis-4: 0.1711
multi-modal-dialogue-generation-on-openvidialNV (w/ MI)
BLEU: 1.96
Dis-1: 0.0039
Dis-2: 0.0311
Dis-3: 0.0953
Dis-4: 0.163
multi-modal-dialogue-generation-on-openvidialFV (w/o MI)
BLEU: 1.99
Dis-1: 0.0056
Dis-2: 0.0431
Dis-3: 0.125
Dis-4: 0.2215

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OpenViDial 2.0:具有视觉上下文的更大规模开放领域对话生成数据集 | 论文 | HyperAI超神经