3 个月前

悟空:一个1亿规模的中文跨模态预训练基准

悟空:一个1亿规模的中文跨模态预训练基准

摘要

视觉-语言预训练(Vision-Language Pre-training, VLP)模型在各类下游任务中展现出卓越性能。其成功在很大程度上依赖于大规模预训练跨模态数据集的支撑。然而,中文领域缺乏大规模数据集与基准评测体系,严重制约了中文VLP模型的发展以及更广泛的多语言应用。为此,本文发布了一个大规模中文跨模态数据集——“悟空”(Wukong),该数据集包含从网络收集的1亿条中文图文对,旨在为不同多模态预训练方法提供统一的评测基准,推动中文VLP研究与社区发展。此外,我们基于多种图像编码器(ViT-B/ViT-L/Swin-T)发布了多个预训练模型,并引入了多项先进的预训练技术,包括锁定图像的文本调优(locked-image text tuning)、对比学习中的词元级相似性建模,以及减少词元间交互的优化策略。为全面评估模型性能,本文还构建了一组涵盖多个下游任务的基准测试,其中包括一个目前规模最大的人工验证图文测试数据集。实验结果表明,“悟空”数据集在多种跨模态学习方法中均展现出良好的预训练潜力,具备成为中文领域重要基准数据集的前景。在10个数据集上的零样本图像分类任务中,$Wukong_{ViT-L}$ 模型平均准确率达到73.03%;在图像-文本检索任务中,于AIC-ICC数据集上实现了71.6%的平均召回率,较WenLan 2.0提升12.9%。同时,我们的Wukong系列模型在多个下游任务上与其他变体进行了对比,涵盖Flickr8K-CN、Flickr-30K-CN、COCO-CN等主流中文图文数据集。更多详细信息请访问:https://wukong-dataset.github.io/wukong-dataset/

代码仓库

基准测试

基准方法指标
image-retrieval-on-coco-cnWukong (ViT-L/14)
R@1: 74.0
R@10: 98.1
R@5: 94.4
image-retrieval-on-coco-cnWukong (ViT-B/32)
R@1: 67.0
R@10: 96.7
R@5: 91.4
image-retrieval-on-flickr30k-cnWukong (ViT-B/32)
R@1: 67.6
R@10: 94.2
R@5: 89.6
image-retrieval-on-flickr30k-cnWukong (ViT-L/14)
R@1: 77.4
R@10: 97.0
R@5: 94.5
image-retrieval-on-muge-retrievalWukong (ViT-L/14)
Mean Recall: 72.1
R@1: 52.7
R@10: 85.6
R@5: 77.9
image-retrieval-on-muge-retrievalWukong (ViT-B/32)
Mean Recall: 61.2
R@1: 39.2
R@10: 77.4
R@5: 66.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
悟空:一个1亿规模的中文跨模态预训练基准 | 论文 | HyperAI超神经