4 个月前

M2-编码器:通过大规模高效预训练推进双语图像-文本理解

M2-编码器:通过大规模高效预训练推进双语图像-文本理解

摘要

视觉-语言基础模型(如CLIP)已经彻底改变了人工智能领域。然而,支持多语言的视觉-语言模型(VLM),例如同时支持中文和英文的模型,由于大规模预训练数据集的相对稀缺而进展缓慢。为此,我们引入了一个全面的双语(中英)数据集BM-6B,包含超过60亿个图像-文本对,旨在增强多模态基础模型在两种语言中的图像理解能力。为了处理如此规模的数据集,我们提出了一种新的分组聚合方法来计算图像-文本对比损失,该方法显著减少了通信开销和GPU内存需求,使训练速度提高了60%。我们在BM-6B上预训练了一系列具有增强细粒度理解能力的双语图像-文本基础模型,这些模型被称为$M^2$-编码器(读作“M平方”),在两种语言的多模态检索和分类任务中均设立了新的基准。特别是我们的最大型$M^2$-编码器-10B模型,在零样本分类设置下,在ImageNet上的Top-1准确率达到了88.5%,在ImageNet-CN上的Top-1准确率达到了80.7%,分别超过了此前报告的最佳方法2.2%和21.1%。$M^2$-编码器系列代表了迄今为止最全面的双语图像-文本基础模型之一,因此我们将其提供给研究社区以供进一步探索和开发。

基准测试

基准方法指标
zero-shot-cross-modal-retrieval-on-coco-2014M2-Encoder
Image-to-text R@1: 72.8
Image-to-text R@10: 96.3
Image-to-text R@5: 92.3
Text-to-image R@1: 56.5
Text-to-image R@10: 88.8
Text-to-image R@5: 81.6
zero-shot-cross-modal-retrieval-on-flickr30kM2-Encoder
Image-to-text R@1: 91.2
Image-to-text R@10: 99.6
Image-to-text R@5: 99.2
Text-to-image R@1: 92.2
Text-to-image R@10: 99.7
Text-to-image R@5: 99.5
zero-shot-learning-on-imagenet-cn$M^2$-Encoder
Accuracy: 80.7
zero-shot-transfer-image-classification-on-1M2-Encoder
Accuracy (Private): 88.5
Param: 10B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
M2-编码器:通过大规模高效预训练推进双语图像-文本理解 | 论文 | HyperAI超神经