3 个月前

多模态开放域对话

多模态开放域对话

摘要

近期在开放域对话代理领域的研究已表明,通过大幅增加预训练数据规模和模型参数量,可在模型的互动性与类人程度等指标上实现显著提升(Adiwardana 等,2020;Roller 等,2020)。然而,若要构建具备类人能力的智能代理,我们必须突破仅处理文本的局限,拓展至多模态能力。其中尤为关键的是,使代理具备视觉感知能力,并能够基于所见内容进行交流。为实现与人类开展多模态对话的目标,本文研究将当前最先进的开放域对话模型组件与最先进的视觉模型组件进行融合。我们系统地探索了多种图像融合策略,以及领域自适应的预训练与微调方法,结果表明,我们所构建的最佳模型在多模态对话任务中显著优于现有强基线模型,同时在纯文本对话任务中仍能保持与先前的 BlenderBot(Roller 等,2020)相当的性能表现。此外,我们在最终模型中进一步引入并整合了安全机制,实验结果表明,这些安全措施并未对模型的互动性等关键指标造成负面影响。

基准测试

基准方法指标
visual-dialog-on-blendedskilltalkMulti-Modal BlenderBot
BLEU-4: 1
F1: 17.8
ROUGE-L: 19.3
visual-dialog-on-convai2Multi-Modal BlenderBot
BLEU-4: 1.1
F1: 18.4
ROUGE-L: 22.6
visual-dialog-on-empatheticdialoguesMulti-Modal BlenderBot
BLEU-4: 1.5
F1: 19.2
ROUGE-L: 24.5
visual-dialog-on-image-chatMulti-Modal BlenderBot
BLEU-4: 40
F1: 13.1
ROUGE-L: 18
visual-dialog-on-wizard-of-wikipediaMulti-Modal BlenderBot
BLEU-4: 2.2
F1: 18.6
ROUGE-L: 17.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态开放域对话 | 论文 | HyperAI超神经