4 个月前

可重复的比例定律在对比语言-图像学习中的应用

可重复的比例定律在对比语言-图像学习中的应用

摘要

扩大神经网络的规模已经在广泛的任务中取得了显著的性能提升。此外,性能通常遵循可靠的扩展规律,这些规律与训练集大小、模型大小和计算资源有关,为日益昂贵的大规模实验提供了宝贵的指导。然而,以往关于扩展规律的研究主要使用了私有数据和模型,或者专注于单模态语言或视觉学习。为了克服这些限制,我们利用公共LAION数据集和开源OpenCLIP存储库对对比语言-图像预训练(CLIP)的扩展规律进行了研究。我们的大规模实验涉及最多达20亿个图像-文本对的模型训练,并识别出多个下游任务中的幂律扩展规律,包括零样本分类、检索、线性探测和端到端微调。我们发现,训练分布对于扩展规律起着关键作用,尽管OpenAI和OpenCLIP模型具有相同的架构和相似的训练方法,但它们表现出不同的扩展行为。我们开源了评估流程和所有模型,包括最大的公开CLIP模型,以确保可重复性和提高扩展规律研究的可访问性。本研究的源代码和重现指南将在https://github.com/LAION-AI/scaling-laws-openclip 提供。

代码仓库

laion-ai/scaling-laws-openclip
官方
pytorch
GitHub 中提及
mlfoundations/open_clip
pytorch
GitHub 中提及
eify/open_clip
pytorch
GitHub 中提及
nahidalam/open_clip
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetOpenCLIP ViT-H/14
Top 1 Accuracy: 88.5%
open-vocabulary-attribute-detection-on-ovad-1Open CLIP ViT-B32
mean average precision: 17.0
zero-shot-cross-modal-retrieval-on-flickr30kOpenCLIP VIT-H/14
Image-to-text R@1: -
Image-to-text R@10: -
Image-to-text R@5: 99.3
Text-to-image R@1: -
Text-to-image R@10: -
Text-to-image R@5: 94.1
zero-shot-image-classification-on-country211OpenClip H/14 (34B)(Laion2B)
Top-1 accuracy: 30.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
可重复的比例定律在对比语言-图像学习中的应用 | 论文 | HyperAI超神经