
摘要
感知多模态信息并实现与人类的对话是人工智能的长期目标。预训练通常被认为是实现多模态对话的有效方法。然而,由于多模态对话数据的有限可用性,目前对于多模态对话预训练的研究仍然较少。另一个引人关注的挑战来自于多模态对话的综合性,它涉及多种模态和任务。此外,未来可能会出现新的任务形式,而这些新形式的任务出现的时间点难以预测。因此,设计的多模态对话模型必须具备足够的灵活性以适应这些场景。本文提出了一种统一、结构化、组合式的多模态对话预训练框架——PaCE(Progressive and Compositional Experts)。该框架通过结合多个基础专家来支持多种与对话相关的任务,并且可以在有限的对话数据和大量的非对话多模态数据上进行预训练。此外,我们还提出了一种渐进式训练方法,其中过去的旧专家可以辅助新的专家,从而促进其能力的扩展。实验结果表明,PaCE在八个多模态对话基准测试中取得了最先进的成果。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dialogue-state-tracking-on-mmconv | PaCE | Categorical Accuracy: 92.2 Non-Categorical Accuracy: 43.4 Overall: 39.2 |
| dialogue-state-tracking-on-simmc2-0 | PaCE | Act F1: 97.1 Slot F1: 87.0 |
| image-retrieval-on-photochat | PaCE | R1: 15.2 R@10: 49.6 R@5: 36.7 Sum(R@1,5,10): 101.5 |
| multimodal-intent-recognition-on-mmdialog | PaCE | F1: 77.6 |
| multimodal-intent-recognition-on-photochat | PaCE | F1: 63.8 Precision: 63.3 Recall: 68 |
| response-generation-on-mmconv | PaCE | BLEU: 22 Comb.: 44.7 Inform: 34.5 Success: 13.9 |
| response-generation-on-simmc2-0 | PaCE | BLEU: 34.1 |
| text-retrieval-on-image-chat | PaCE | R@1: 51.9 R@5: 76.8 Sum(R@1,5): 128.7 |