6 个月前

多模态表征

统一多模态

Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang

摘要

现有的预训练方法通常仅专注于单模态任务或跨模态任务，难以在两者之间有效迁移与适应。这些方法往往只能利用单模态数据（如文本或图像）或有限的跨模态数据（如图像-文本对）。在本工作中，我们提出了一种统一模态的预训练架构——UNIMO，该架构能够有效适应单模态与跨模态的理解与生成任务。通过利用大规模的自由文本语料库和图像数据集，UNIMO显著提升了模型在视觉与文本理解方面的能力。同时，我们引入跨模态对比学习（Cross-Modal Contrastive Learning, CMCL），在图像-文本对构成的语料库上，将文本与视觉信息对齐至统一的语义空间中。由于非配对的单模态数据资源极为丰富，我们的模型能够基于更大规模的数据学习到更具泛化能力的表示。此外，在统一的语义空间中，文本知识与视觉知识能够相互增强。实验结果表明，UNIMO在多个单模态与跨模态下游任务上均显著提升了性能。我们的代码与预训练模型已公开，详见UNIMO项目主页：https://unimo-ptm.github.io/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

统一多模态

Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang

摘要

现有的预训练方法通常仅专注于单模态任务或跨模态任务，难以在两者之间有效迁移与适应。这些方法往往只能利用单模态数据（如文本或图像）或有限的跨模态数据（如图像-文本对）。在本工作中，我们提出了一种统一模态的预训练架构——UNIMO，该架构能够有效适应单模态与跨模态的理解与生成任务。通过利用大规模的自由文本语料库和图像数据集，UNIMO显著提升了模型在视觉与文本理解方面的能力。同时，我们引入跨模态对比学习（Cross-Modal Contrastive Learning, CMCL），在图像-文本对构成的语料库上，将文本与视觉信息对齐至统一的语义空间中。由于非配对的单模态数据资源极为丰富，我们的模型能够基于更大规模的数据学习到更具泛化能力的表示。此外，在统一的语义空间中，文本知识与视觉知识能够相互增强。实验结果表明，UNIMO在多个单模态与跨模态下游任务上均显著提升了性能。我们的代码与预训练模型已公开，详见UNIMO项目主页：https://unimo-ptm.github.io/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

UNIMO：通过跨模态对比学习实现统一模态理解与生成 | 论文 | HyperAI超神经