3 个月前

ALIP:基于合成标题的自适应语言-图像预训练

ALIP:基于合成标题的自适应语言-图像预训练

摘要

对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)通过大规模利用从网络收集的图像-文本对数据集,在多种视觉-语言任务中显著提升了性能。然而,网络数据中固有的噪声以及图像与文本不匹配的问题,可能对表征学习的效果产生不利影响。为解决这一问题,我们首先采用OFA模型生成聚焦于图像内容的合成文本描述,这些合成描述包含有助于预训练的补充信息。在此基础上,我们提出一种自适应语言-图像预训练方法(Adaptive Language-Image Pre-training, ALIP),该方法为双路径架构,同时融合原始文本与合成描述的监督信号。ALIP的核心组件包括语言一致性门控机制(Language Consistency Gate, LCG)和描述一致性门控机制(Description Consistency Gate, DCG),二者在训练过程中动态调整样本及图像-文本/描述对的权重,以提升学习效率。同时,自适应对比损失函数能够有效缓解噪声数据的影响,进一步提升预训练数据的利用效率。我们在不同规模的模型和预训练数据集上对ALIP进行了全面验证。实验结果表明,ALIP在多个下游任务中均取得了当前最优性能,包括零样本图像-文本检索和线性探测任务。为促进后续研究,我们已将代码及预训练模型开源,发布于:https://github.com/deepglint/ALIP。

代码仓库

deepglint/alip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-700-2020ALIP-ViT B/32 LAION10M
Top 1 Accuracy: 46.4
action-classification-on-kinetics-700-2020ALIP-ViT B/16 LAION10M
Top 1 Accuracy: 50.1
action-classification-on-kinetics-700-2020ALIP-ViT B/32 LAION30M
Top 1 Accuracy: 50.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ALIP:基于合成标题的自适应语言-图像预训练 | 论文 | HyperAI超神经