3 个月前

UNIMO:通过跨模态对比学习实现统一模态理解与生成

UNIMO:通过跨模态对比学习实现统一模态理解与生成

摘要

现有的预训练方法通常仅专注于单模态任务或跨模态任务,难以在两者之间有效迁移与适应。这些方法往往只能利用单模态数据(如文本或图像)或有限的跨模态数据(如图像-文本对)。在本工作中,我们提出了一种统一模态的预训练架构——UNIMO,该架构能够有效适应单模态与跨模态的理解与生成任务。通过利用大规模的自由文本语料库和图像数据集,UNIMO显著提升了模型在视觉与文本理解方面的能力。同时,我们引入跨模态对比学习(Cross-Modal Contrastive Learning, CMCL),在图像-文本对构成的语料库上,将文本与视觉信息对齐至统一的语义空间中。由于非配对的单模态数据资源极为丰富,我们的模型能够基于更大规模的数据学习到更具泛化能力的表示。此外,在统一的语义空间中,文本知识与视觉知识能够相互增强。实验结果表明,UNIMO在多个单模态与跨模态下游任务上均显著提升了性能。我们的代码与预训练模型已公开,详见UNIMO项目主页:https://unimo-ptm.github.io/。

基准测试

基准方法指标
image-captioning-on-cocoUNIMO-large
BLEU-4: 39.6
CIDEr: 127.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UNIMO:通过跨模态对比学习实现统一模态理解与生成 | 论文 | HyperAI超神经