
摘要
预训练表示在许多自然语言处理(NLP)和感知任务中变得越来越重要。虽然自然语言处理中的表示学习已经过渡到无需人工注释的原始文本训练,但视觉和视觉-语言表示仍然严重依赖于昂贵或需要专业知识的精心整理的训练数据集。对于视觉应用,表示主要通过使用带有显式类别标签的数据集(如ImageNet或OpenImages)进行学习。对于视觉-语言任务,流行的数据集如Conceptual Captions、MSCOCO或CLIP都涉及非 trivial 的数据收集(及清理)过程。这一高昂的数据整理过程限制了数据集的规模,从而阻碍了训练模型的扩展。本文中,我们利用了一个超过十亿张图像及其替代文本对的嘈杂数据集,该数据集是在Conceptual Captions数据集中未经过昂贵过滤或后处理步骤获得的。一个简单的双编码器架构通过对比损失函数学习对齐图像和文本对的视觉和语言表示。我们展示了我们的语料库规模可以弥补其噪声,并且即使采用如此简单的学习方案也能达到最先进的表示效果。我们的视觉表示在转移到分类任务(如ImageNet和VTAB)时表现出色。对齐后的视觉和语言表示不仅支持零样本图像分类,还在Flickr30K和MSCOCO图像-文本检索基准测试中取得了新的最先进结果,即使与更为复杂的交叉注意力模型相比也是如此。这些表示还支持使用复杂文本查询和文本+图像查询进行跨模态搜索。注释:- “non-trivial” 在这里翻译为“非 trivial”,以保留原术语的专业性。- “替代文本” 是指图片无法显示时用于描述图片内容的文字,通常称为“alt text”。
代码仓库
facebookresearch/metaclip
pytorch
GitHub 中提及
willard-yuan/video-text-retrieval-papers
GitHub 中提及
kakaobrain/coyo-dataset
pytorch
GitHub 中提及
pwc-1/Paper-8/tree/main/align
mindspore
MicPie/clasp
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | ALIGN | Image-to-text R@1: 77 Image-to-text R@10: 96.9 Image-to-text R@5: 93.5 Text-to-image R@1: 59.9 Text-to-image R@10: 89.8 Text-to-image R@5: 83.3 |
| cross-modal-retrieval-on-flickr30k | ALIGN | Image-to-text R@1: 95.3 Image-to-text R@10: 100 Image-to-text R@5: 99.8 Text-to-image R@1: 84.9 Text-to-image R@10: 98.6 Text-to-image R@5: 97.4 |
| fine-grained-image-classification-on-food-101 | ALIGN | Accuracy: 95.88 |
| fine-grained-image-classification-on-oxford-1 | ALIGN | Accuracy: 96.19% |
| fine-grained-image-classification-on-stanford | ALIGN | Accuracy: 96.13% |
| image-classification-on-flowers-102 | ALIGN | Accuracy: 99.65% |
| image-classification-on-imagenet | ALIGN (EfficientNet-L2) | Hardware Burden: Number of params: 480M Operations per network pass: Top 1 Accuracy: 88.64% |
| image-classification-on-vtab-1k-1 | ALIGN (50 hypers/task) | Top-1 Accuracy: 79.99 |
| zero-shot-cross-modal-retrieval-on-coco-2014 | ALIGN | Image-to-text R@1: 58.6 Image-to-text R@10: 89.7 Image-to-text R@5: 83.0 Text-to-image R@1: 45.6 Text-to-image R@10: 78.6 Text-to-image R@5: 69.8 |
| zero-shot-cross-modal-retrieval-on-flickr30k | ALIGN | Image-to-text R@1: 88.6 Image-to-text R@10: 99.7 Image-to-text R@5: 98.7 Text-to-image R@1: 75.7 Text-to-image R@10: 96.8 Text-to-image R@5: 93.8 |
| zero-shot-transfer-image-classification-on-1 | ALIGN | Accuracy (Private): 76.4 Accuracy (Public): - |
| zero-shot-transfer-image-classification-on-3 | ALIGN | Accuracy (Private): 70.1 Accuracy (Public): - |
| zero-shot-transfer-image-classification-on-4 | ALIGN | Accuracy: 92.2 |
| zero-shot-transfer-image-classification-on-5 | ALIGN | Accuracy (Private): 75.8 Accuracy (Public): - |