4 个月前

PaCE:具有渐进性和组合性的多模态对话预训练模型

PaCE:具有渐进性和组合性的多模态对话预训练模型

摘要

感知多模态信息并实现与人类的对话是人工智能的长期目标。预训练通常被认为是实现多模态对话的有效方法。然而,由于多模态对话数据的有限可用性,目前对于多模态对话预训练的研究仍然较少。另一个引人关注的挑战来自于多模态对话的综合性,它涉及多种模态和任务。此外,未来可能会出现新的任务形式,而这些新形式的任务出现的时间点难以预测。因此,设计的多模态对话模型必须具备足够的灵活性以适应这些场景。本文提出了一种统一、结构化、组合式的多模态对话预训练框架——PaCE(Progressive and Compositional Experts)。该框架通过结合多个基础专家来支持多种与对话相关的任务,并且可以在有限的对话数据和大量的非对话多模态数据上进行预训练。此外,我们还提出了一种渐进式训练方法,其中过去的旧专家可以辅助新的专家,从而促进其能力的扩展。实验结果表明,PaCE在八个多模态对话基准测试中取得了最先进的成果。

基准测试

基准方法指标
dialogue-state-tracking-on-mmconvPaCE
Categorical Accuracy: 92.2
Non-Categorical Accuracy: 43.4
Overall: 39.2
dialogue-state-tracking-on-simmc2-0PaCE
Act F1: 97.1
Slot F1: 87.0
image-retrieval-on-photochatPaCE
R1: 15.2
R@10: 49.6
R@5: 36.7
Sum(R@1,5,10): 101.5
multimodal-intent-recognition-on-mmdialogPaCE
F1: 77.6
multimodal-intent-recognition-on-photochatPaCE
F1: 63.8
Precision: 63.3
Recall: 68
response-generation-on-mmconvPaCE
BLEU: 22
Comb.: 44.7
Inform: 34.5
Success: 13.9
response-generation-on-simmc2-0PaCE
BLEU: 34.1
text-retrieval-on-image-chatPaCE
R@1: 51.9
R@5: 76.8
Sum(R@1,5): 128.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PaCE:具有渐进性和组合性的多模态对话预训练模型 | 论文 | HyperAI超神经