Jiaxi GuXiaojun MengGuansong LuLu HouMinzhe NiuXiaodan LiangLewei YaoRunhui HuangWei ZhangXin JiangChunjing XuHang Xu

摘要
视觉-语言预训练(Vision-Language Pre-training, VLP)模型在各类下游任务中展现出卓越性能。其成功在很大程度上依赖于大规模预训练跨模态数据集的支撑。然而,中文领域缺乏大规模数据集与基准评测体系,严重制约了中文VLP模型的发展以及更广泛的多语言应用。为此,本文发布了一个大规模中文跨模态数据集——“悟空”(Wukong),该数据集包含从网络收集的1亿条中文图文对,旨在为不同多模态预训练方法提供统一的评测基准,推动中文VLP研究与社区发展。此外,我们基于多种图像编码器(ViT-B/ViT-L/Swin-T)发布了多个预训练模型,并引入了多项先进的预训练技术,包括锁定图像的文本调优(locked-image text tuning)、对比学习中的词元级相似性建模,以及减少词元间交互的优化策略。为全面评估模型性能,本文还构建了一组涵盖多个下游任务的基准测试,其中包括一个目前规模最大的人工验证图文测试数据集。实验结果表明,“悟空”数据集在多种跨模态学习方法中均展现出良好的预训练潜力,具备成为中文领域重要基准数据集的前景。在10个数据集上的零样本图像分类任务中,$Wukong_{ViT-L}$ 模型平均准确率达到73.03%;在图像-文本检索任务中,于AIC-ICC数据集上实现了71.6%的平均召回率,较WenLan 2.0提升12.9%。同时,我们的Wukong系列模型在多个下游任务上与其他变体进行了对比,涵盖Flickr8K-CN、Flickr-30K-CN、COCO-CN等主流中文图文数据集。更多详细信息请访问:https://wukong-dataset.github.io/wukong-dataset/
代码仓库
0jason000/wukong
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-coco-cn | Wukong (ViT-L/14) | R@1: 74.0 R@10: 98.1 R@5: 94.4 |
| image-retrieval-on-coco-cn | Wukong (ViT-B/32) | R@1: 67.0 R@10: 96.7 R@5: 91.4 |
| image-retrieval-on-flickr30k-cn | Wukong (ViT-B/32) | R@1: 67.6 R@10: 94.2 R@5: 89.6 |
| image-retrieval-on-flickr30k-cn | Wukong (ViT-L/14) | R@1: 77.4 R@10: 97.0 R@5: 94.5 |
| image-retrieval-on-muge-retrieval | Wukong (ViT-L/14) | Mean Recall: 72.1 R@1: 52.7 R@10: 85.6 R@5: 77.9 |
| image-retrieval-on-muge-retrieval | Wukong (ViT-B/32) | Mean Recall: 61.2 R@1: 39.2 R@10: 77.4 R@5: 66.9 |