3 个月前

文兰:通过大规模多模态预训练连接视觉与语言

文兰:通过大规模多模态预训练连接视觉与语言

摘要

近年来,多模态预训练模型被广泛研究,旨在实现视觉与语言之间的有效对齐。然而,大多数现有方法均显式建模图像与文本对之间的跨模态交互,其前提假设是文本与图像模态之间存在强语义关联。然而,在现实场景中,这一强假设往往不成立。为此,我们选择在大规模多模态预训练中隐式建模跨模态相关性,这正是由我们团队主导的中文项目“文澜”(WenLan)的核心研究方向。具体而言,在图像与文本对之间仅假设弱相关性的前提下,我们在跨模态对比学习框架下提出了一种双塔预训练模型——BriVL。与OpenAI的CLIP采用简单对比学习方法不同,我们通过将最新的MoCo(Momentum Contrast)方法引入跨模态场景,设计了一种更为先进的算法。通过构建基于大容量队列的字典结构,BriVL能够在有限的GPU资源下纳入更多负样本,显著提升对比学习的效率与性能。此外,我们进一步构建了一个大规模中文多源图像-文本数据集——RUC-CAS-WenLan,用于BriVL模型的预训练。大量实验证明,预训练后的BriVL模型在多个下游任务上均优于UNITER和OpenAI CLIP,展现出卓越的跨模态理解能力。

代码仓库

BAAI-WuDao/BriVl
pytorch
GitHub 中提及
Aman-4-Real/MMTG
pytorch
GitHub 中提及

基准测试

基准方法指标
image-captioning-on-aic-iccCMCL
BLEU: 66.1
CIDEr: 220.7
METEOR: 41.1
ROUGE-L: 71.9
image-retrieval-on-aic-iccCMCL
Recall@1: 14.4
Recall@10: 39.1
Recall@5: 39.1
image-retrieval-on-ruc-cas-wenlanCMCL
Recall@1: 36
Recall@10: 62.1
Recall@5: 55.4
image-to-text-retrieval-on-aic-iccCMCL
Recall@1: 20.3
Recall@10: 45.6
Recall@5: 37
image-to-text-retrieval-on-ruc-cas-wenlanCMCL
Recall@1: 36.1
Recall@10: 62.2
Recall@5: 55.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文兰:通过大规模多模态预训练连接视觉与语言 | 论文 | HyperAI超神经