3 个月前

用于语言-图像预训练的Sigmoid损失

用于语言-图像预训练的Sigmoid损失

摘要

我们提出了一种用于语言-图像预训练(SigLIP)的简单成对Sigmoid损失函数。与采用Softmax归一化的标准对比学习不同,Sigmoid损失仅作用于图像-文本成对样本,无需全局视角下的成对相似性归一化。该损失函数在支持更大批量规模的同时,也能在较小批量下表现出更优性能。结合锁定图像微调(Locked-image Tuning),仅使用四块TPUv4芯片,我们仅用两天时间便训练出一个SigLiT模型,在ImageNet零样本分类任务上达到84.5%的准确率。由于批量大小与损失函数解耦,我们得以深入研究样本数量与成对样本数量之间的权衡,以及负样本与正样本比例的影响。最后,我们将批量规模推至极限,达到百万级别,发现随着批量增大,性能提升迅速衰减,而32K左右的批量规模已足够实现良好效果。我们已在GitHub(https://github.com/google-research/big_vision)开源相关模型,期望本研究能激发更多关于提升语言-图像预训练质量与效率的探索。

代码仓库

mlfoundations/open_clip
pytorch
GitHub 中提及
ramanakshay/clip
pytorch
GitHub 中提及
google-research/big_vision
官方
jax
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
filipbasara0/relic
pytorch
GitHub 中提及
merveenoyan/siglip
pytorch
GitHub 中提及
filipbasara0/simple-clip
pytorch
GitHub 中提及
morrisfl/unifex
pytorch
GitHub 中提及
borisdayma/clip-jax
jax
GitHub 中提及
apple/ml-mobileclip
pytorch
GitHub 中提及

基准测试

基准方法指标
image-to-text-retrieval-on-cocoSigLIP (ViT-L, zero-shot)
Recall@1: 70.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于语言-图像预训练的Sigmoid损失 | 论文 | HyperAI超神经