ChertiMehdi ; BeaumontRomain ; WightmanRoss ; WortsmanMitchell ; IlharcoGabriel ; GordonCade ; SchuhmannChristoph ; SchmidtLudwig ; JitsevJenia

摘要
扩大神经网络的规模已经在广泛的任务中取得了显著的性能提升。此外,性能通常遵循可靠的扩展规律,这些规律与训练集大小、模型大小和计算资源有关,为日益昂贵的大规模实验提供了宝贵的指导。然而,以往关于扩展规律的研究主要使用了私有数据和模型,或者专注于单模态语言或视觉学习。为了克服这些限制,我们利用公共LAION数据集和开源OpenCLIP存储库对对比语言-图像预训练(CLIP)的扩展规律进行了研究。我们的大规模实验涉及最多达20亿个图像-文本对的模型训练,并识别出多个下游任务中的幂律扩展规律,包括零样本分类、检索、线性探测和端到端微调。我们发现,训练分布对于扩展规律起着关键作用,尽管OpenAI和OpenCLIP模型具有相同的架构和相似的训练方法,但它们表现出不同的扩展行为。我们开源了评估流程和所有模型,包括最大的公开CLIP模型,以确保可重复性和提高扩展规律研究的可访问性。本研究的源代码和重现指南将在https://github.com/LAION-AI/scaling-laws-openclip 提供。
代码仓库
laion-ai/scaling-laws-openclip
官方
pytorch
GitHub 中提及
mlfoundations/open_clip
pytorch
GitHub 中提及
eify/open_clip
pytorch
GitHub 中提及
nahidalam/open_clip
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | OpenCLIP ViT-H/14 | Top 1 Accuracy: 88.5% |
| open-vocabulary-attribute-detection-on-ovad-1 | Open CLIP ViT-B32 | mean average precision: 17.0 |
| zero-shot-cross-modal-retrieval-on-flickr30k | OpenCLIP VIT-H/14 | Image-to-text R@1: - Image-to-text R@10: - Image-to-text R@5: 99.3 Text-to-image R@1: - Text-to-image R@10: - Text-to-image R@5: 94.1 |
| zero-shot-image-classification-on-country211 | OpenClip H/14 (34B)(Laion2B) | Top-1 accuracy: 30.01 |