
摘要
视觉-语言基础模型(如CLIP)已经彻底改变了人工智能领域。然而,支持多语言的视觉-语言模型(VLM),例如同时支持中文和英文的模型,由于大规模预训练数据集的相对稀缺而进展缓慢。为此,我们引入了一个全面的双语(中英)数据集BM-6B,包含超过60亿个图像-文本对,旨在增强多模态基础模型在两种语言中的图像理解能力。为了处理如此规模的数据集,我们提出了一种新的分组聚合方法来计算图像-文本对比损失,该方法显著减少了通信开销和GPU内存需求,使训练速度提高了60%。我们在BM-6B上预训练了一系列具有增强细粒度理解能力的双语图像-文本基础模型,这些模型被称为$M^2$-编码器(读作“M平方”),在两种语言的多模态检索和分类任务中均设立了新的基准。特别是我们的最大型$M^2$-编码器-10B模型,在零样本分类设置下,在ImageNet上的Top-1准确率达到了88.5%,在ImageNet-CN上的Top-1准确率达到了80.7%,分别超过了此前报告的最佳方法2.2%和21.1%。$M^2$-编码器系列代表了迄今为止最全面的双语图像-文本基础模型之一,因此我们将其提供给研究社区以供进一步探索和开发。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-cross-modal-retrieval-on-coco-2014 | M2-Encoder | Image-to-text R@1: 72.8 Image-to-text R@10: 96.3 Image-to-text R@5: 92.3 Text-to-image R@1: 56.5 Text-to-image R@10: 88.8 Text-to-image R@5: 81.6 |
| zero-shot-cross-modal-retrieval-on-flickr30k | M2-Encoder | Image-to-text R@1: 91.2 Image-to-text R@10: 99.6 Image-to-text R@5: 99.2 Text-to-image R@1: 92.2 Text-to-image R@10: 99.7 Text-to-image R@5: 99.5 |
| zero-shot-learning-on-imagenet-cn | $M^2$-Encoder | Accuracy: 80.7 |
| zero-shot-transfer-image-classification-on-1 | M2-Encoder | Accuracy (Private): 88.5 Param: 10B |