6 个月前

摘要

CLIP（Radford 等，2021）的巨大成功推动了视觉-语言对比学习在预训练领域的研究与应用。在本工作中，我们构建了一个大规模的中英文图像-文本配对数据集，其中大部分数据来源于公开可获取的数据集，并基于该新数据集对中文CLIP模型进行了预训练。我们开发了五种不同规模的中文CLIP模型，参数量范围从7700万到9.58亿不等。此外，我们提出了一种两阶段预训练方法：首先在图像编码器冻结的条件下进行训练，随后对所有模型参数进行联合优化，以进一步提升模型性能。大量实验结果表明，中文CLIP在零样本学习（zero-shot learning）和微调（fine-tuning）两种设置下，均在MUGE、Flickr30K-CN和COCO-CN基准上取得了当前最优（state-of-the-art）的性能表现；同时，在ELEVATER基准（Li 等，2022）上的零样本图像分类任务中也展现出具有竞争力的性能。相关代码、模型及演示已开源，详见：https://github.com/OFA-Sys/Chinese-CLIP

源 PDF