摘要

视觉-语言预训练（Vision-Language Pre-training, VLP）模型在各类下游任务中展现出卓越性能。其成功在很大程度上依赖于大规模预训练跨模态数据集的支撑。然而，中文领域缺乏大规模数据集与基准评测体系，严重制约了中文VLP模型的发展以及更广泛的多语言应用。为此，本文发布了一个大规模中文跨模态数据集——“悟空”（Wukong），该数据集包含从网络收集的1亿条中文图文对，旨在为不同多模态预训练方法提供统一的评测基准，推动中文VLP研究与社区发展。此外，我们基于多种图像编码器（ViT-B/ViT-L/Swin-T）发布了多个预训练模型，并引入了多项先进的预训练技术，包括锁定图像的文本调优（locked-image text tuning）、对比学习中的词元级相似性建模，以及减少词元间交互的优化策略。为全面评估模型性能，本文还构建了一组涵盖多个下游任务的基准测试，其中包括一个目前规模最大的人工验证图文测试数据集。实验结果表明，“悟空”数据集在多种跨模态学习方法中均展现出良好的预训练潜力，具备成为中文领域重要基准数据集的前景。在10个数据集上的零样本图像分类任务中， $Wukong_{ViT-L}$ 模型平均准确率达到73.03%；在图像-文本检索任务中，于AIC-ICC数据集上实现了71.6%的平均召回率，较WenLan 2.0提升12.9%。同时，我们的Wukong系列模型在多个下游任务上与其他变体进行了对比，涵盖Flickr8K-CN、Flickr-30K-CN、COCO-CN等主流中文图文数据集。更多详细信息请访问：https://wukong-dataset.github.io/wukong-dataset/