3 个月前

VLMo:基于模态专家混合的统一视觉-语言预训练

VLMo:基于模态专家混合的统一视觉-语言预训练

摘要

我们提出了一种统一的视觉-语言预训练模型(VLMo),该模型通过模块化的Transformer网络联合学习一个双编码器(dual encoder)和一个融合编码器(fusion encoder)。具体而言,我们引入了多模态专家混合(Mixture-of-Modality-Experts, MoME)Transformer架构,其中每个网络模块包含一组针对特定模态的专家(modality-specific experts)以及一个共享的自注意力层。由于MoME架构具有高度的建模灵活性,预训练的VLMo模型可被微调为用于视觉-语言分类任务的融合编码器,也可直接作为双编码器用于高效的图像-文本检索任务。此外,我们提出了一种分阶段预训练策略,能够有效利用大规模的纯图像数据、纯文本数据以及图像-文本配对数据。实验结果表明,VLMo在多个视觉-语言任务上均取得了当前最优性能,涵盖视觉问答(VQA)、自然语言视觉推理2.0(NLVR2)以及图像-文本检索等任务。相关代码与预训练模型已公开,可通过 https://aka.ms/vlmo 获取。

代码仓库

ylsung/vl-merging
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-photochatVLMo
R1: 11.5
R@10: 39.4
R@5: 30.0
Sum(R@1,5,10): 83.2
text-retrieval-on-image-chatVLMo
R@1: 46.8
R@5: 67.5
Sum(R@1,5): 114.3
visual-question-answering-on-vqa-v2-test-devVLMo
Accuracy: 82.78
visual-question-answering-on-vqa-v2-test-stdVLMo
number: 67.26
other: 72.87
overall: 81.30
yes/no: 94.68
visual-reasoning-on-nlvr2-devVLMo
Accuracy: 85.64
visual-reasoning-on-nlvr2-testVLMo
Accuracy: 86.86

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLMo:基于模态专家混合的统一视觉-语言预训练 | 论文 | HyperAI超神经