3 个月前

CCMB:一个大规模中文跨模态基准

CCMB:一个大规模中文跨模态基准

摘要

在大规模数据集上进行视觉-语言预训练(Vision-Language Pre-training, VLP)已在多种下游任务中展现出卓越性能。然而,与英文语料库下丰富的基准数据集相比,基于中文语料的大规模预训练数据集及下游任务数据集仍处于严重缺乏的状态。为此,本文构建了一个大规模高质量的中文跨模态基准数据集——CCMB(Chinese Cross-Modal Benchmark),旨在推动中文视觉-语言研究的发展。CCMB包含目前规模最大的公开预训练数据集Zero,以及五个由人工标注的细调数据集,用于支持下游任务。其中,Zero数据集包含2.5亿张图像与7.5亿条文本描述,且其包含的两个细调数据集目前也是中文跨模态下游任务中规模最大的公开数据集。与此同时,我们提出了一种名为R2D2的VLP框架,该框架采用“预排序+排序”(pre-ranking + ranking)策略,以学习强大的视觉-语言表示能力,并引入一种双向知识蒸馏方法(即目标引导蒸馏与特征引导蒸馏),进一步提升模型的学习性能。基于Zero数据集与R2D2框架,我们在涵盖图像-文本检索、图像-文本匹配、图像描述生成、文本到图像生成以及零样本图像分类五大类任务的十二个下游数据集上均取得了当前最优(SOTA)性能。相关数据集、模型与代码已开源,访问地址为:https://github.com/yuxie11/R2D2

代码仓库

yuxie11/R2D2
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-coco-cnR2D2 (ViT-L/14)
R@1: 79.1
R@10: 98.9
R@5: 96.5
image-retrieval-on-coco-cnR2D2 (ViT-B)
R@1: 75.1
R@10: 98.1
R@5: 94.2
image-retrieval-on-flickr30k-cnR2D2 (ViT-L/14)
R@1: 84.4
R@10: 98.4
R@5: 96.7
image-retrieval-on-flickr30k-cnR2D2 (ViT-B)
R@1: 78.3
R@10: 97.0
R@5: 94.6
image-retrieval-on-muge-retrievalR2D2 (ViT-L/14)
Mean Recall: 77.5
R@1: 60.1
R@10: 89.4
R@5: 82.9
image-retrieval-on-muge-retrievalR2D2 (ViT-B)
Mean Recall: 68.7
R@1: 47.4
R@10: 83.5
R@5: 75.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CCMB:一个大规模中文跨模态基准 | 论文 | HyperAI超神经