
摘要
我们提出了一种统一的视觉-语言预训练模型(VLMo),该模型通过模块化的Transformer网络联合学习一个双编码器(dual encoder)和一个融合编码器(fusion encoder)。具体而言,我们引入了多模态专家混合(Mixture-of-Modality-Experts, MoME)Transformer架构,其中每个网络模块包含一组针对特定模态的专家(modality-specific experts)以及一个共享的自注意力层。由于MoME架构具有高度的建模灵活性,预训练的VLMo模型可被微调为用于视觉-语言分类任务的融合编码器,也可直接作为双编码器用于高效的图像-文本检索任务。此外,我们提出了一种分阶段预训练策略,能够有效利用大规模的纯图像数据、纯文本数据以及图像-文本配对数据。实验结果表明,VLMo在多个视觉-语言任务上均取得了当前最优性能,涵盖视觉问答(VQA)、自然语言视觉推理2.0(NLVR2)以及图像-文本检索等任务。相关代码与预训练模型已公开,可通过 https://aka.ms/vlmo 获取。
代码仓库
microsoft/unilm/tree/master/vlmo
官方
pytorch
ylsung/vl-merging
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-photochat | VLMo | R1: 11.5 R@10: 39.4 R@5: 30.0 Sum(R@1,5,10): 83.2 |
| text-retrieval-on-image-chat | VLMo | R@1: 46.8 R@5: 67.5 Sum(R@1,5): 114.3 |
| visual-question-answering-on-vqa-v2-test-dev | VLMo | Accuracy: 82.78 |
| visual-question-answering-on-vqa-v2-test-std | VLMo | number: 67.26 other: 72.87 overall: 81.30 yes/no: 94.68 |
| visual-reasoning-on-nlvr2-dev | VLMo | Accuracy: 85.64 |
| visual-reasoning-on-nlvr2-test | VLMo | Accuracy: 86.86 |