4 个月前

利用噪声文本监督扩大视觉和视觉-语言表示学习

利用噪声文本监督扩大视觉和视觉-语言表示学习

摘要

预训练表示在许多自然语言处理(NLP)和感知任务中变得越来越重要。虽然自然语言处理中的表示学习已经过渡到无需人工注释的原始文本训练,但视觉和视觉-语言表示仍然严重依赖于昂贵或需要专业知识的精心整理的训练数据集。对于视觉应用,表示主要通过使用带有显式类别标签的数据集(如ImageNet或OpenImages)进行学习。对于视觉-语言任务,流行的数据集如Conceptual Captions、MSCOCO或CLIP都涉及非 trivial 的数据收集(及清理)过程。这一高昂的数据整理过程限制了数据集的规模,从而阻碍了训练模型的扩展。本文中,我们利用了一个超过十亿张图像及其替代文本对的嘈杂数据集,该数据集是在Conceptual Captions数据集中未经过昂贵过滤或后处理步骤获得的。一个简单的双编码器架构通过对比损失函数学习对齐图像和文本对的视觉和语言表示。我们展示了我们的语料库规模可以弥补其噪声,并且即使采用如此简单的学习方案也能达到最先进的表示效果。我们的视觉表示在转移到分类任务(如ImageNet和VTAB)时表现出色。对齐后的视觉和语言表示不仅支持零样本图像分类,还在Flickr30K和MSCOCO图像-文本检索基准测试中取得了新的最先进结果,即使与更为复杂的交叉注意力模型相比也是如此。这些表示还支持使用复杂文本查询和文本+图像查询进行跨模态搜索。注释:- “non-trivial” 在这里翻译为“非 trivial”,以保留原术语的专业性。- “替代文本” 是指图片无法显示时用于描述图片内容的文字,通常称为“alt text”。

代码仓库

facebookresearch/metaclip
pytorch
GitHub 中提及
kakaobrain/coyo-dataset
pytorch
GitHub 中提及
MicPie/clasp
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014ALIGN
Image-to-text R@1: 77
Image-to-text R@10: 96.9
Image-to-text R@5: 93.5
Text-to-image R@1: 59.9
Text-to-image R@10: 89.8
Text-to-image R@5: 83.3
cross-modal-retrieval-on-flickr30kALIGN
Image-to-text R@1: 95.3
Image-to-text R@10: 100
Image-to-text R@5: 99.8
Text-to-image R@1: 84.9
Text-to-image R@10: 98.6
Text-to-image R@5: 97.4
fine-grained-image-classification-on-food-101ALIGN
Accuracy: 95.88
fine-grained-image-classification-on-oxford-1ALIGN
Accuracy: 96.19%
fine-grained-image-classification-on-stanfordALIGN
Accuracy: 96.13%
image-classification-on-flowers-102ALIGN
Accuracy: 99.65%
image-classification-on-imagenetALIGN (EfficientNet-L2)
Hardware Burden:
Number of params: 480M
Operations per network pass:
Top 1 Accuracy: 88.64%
image-classification-on-vtab-1k-1ALIGN (50 hypers/task)
Top-1 Accuracy: 79.99
zero-shot-cross-modal-retrieval-on-coco-2014ALIGN
Image-to-text R@1: 58.6
Image-to-text R@10: 89.7
Image-to-text R@5: 83.0
Text-to-image R@1: 45.6
Text-to-image R@10: 78.6
Text-to-image R@5: 69.8
zero-shot-cross-modal-retrieval-on-flickr30kALIGN
Image-to-text R@1: 88.6
Image-to-text R@10: 99.7
Image-to-text R@5: 98.7
Text-to-image R@1: 75.7
Text-to-image R@10: 96.8
Text-to-image R@5: 93.8
zero-shot-transfer-image-classification-on-1ALIGN
Accuracy (Private): 76.4
Accuracy (Public): -
zero-shot-transfer-image-classification-on-3ALIGN
Accuracy (Private): 70.1
Accuracy (Public): -
zero-shot-transfer-image-classification-on-4ALIGN
Accuracy: 92.2
zero-shot-transfer-image-classification-on-5ALIGN
Accuracy (Private): 75.8
Accuracy (Public): -

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用噪声文本监督扩大视觉和视觉-语言表示学习 | 论文 | HyperAI超神经