
摘要
近期基于双编码器的视觉-语言预训练(VLP)模型因其在各种跨模态任务中的卓越性能和高计算效率而受到学术界和工业界的广泛关注。这些模型试图通过对比学习图像-文本对来学习跨模态表示,然而,所建立的跨模态关联仅依赖于每种模态的单一视图。实际上,一张图像或一段文本包含多种潜在视图,就像人类可以通过不同的描述或照片捕捉现实场景一样。在本文中,我们提出了ERNIE-ViL 2.0,这是一种多视图对比学习框架,旨在同时构建不同视图之间的内模态和跨模态关联,以学习更加稳健的跨模态表示。具体而言,我们在每种模态内部构建多个视图来学习内模态关联,从而增强单模态表示。除了固有的视觉/文本视图外,我们还构建了对象标签序列作为特殊的文本视图,以缩小噪声图像-文本对上的跨模态语义差距。ERNIE-ViL 2.0 使用2900万公开数据集进行预训练,在英语跨模态检索任务上取得了具有竞争力的结果。此外,为了将我们的方法推广到中文跨模态任务中,我们将预训练数据集扩展至15亿中文图像-文本对,并对 ERNIE-ViL 2.0 进行了训练,在中文跨模态检索任务上相比之前的最先进结果有了显著提升。我们已将预训练模型发布在 https://github.com/PaddlePaddle/ERNIE。
代码仓库
PaddlePaddle/ERNIE
官方
paddle
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | ERNIE-ViL 2.0 | Image-to-text R@1: 77.4 Image-to-text R@10: 97.1 Image-to-text R@5: 93.6 Text-to-image R@1: 59.5 Text-to-image R@10: 90.1 Text-to-image R@5: 83.4 |
| cross-modal-retrieval-on-flickr30k | ERNIE-ViL 2.0 | Image-to-text R@1: 97.2 Image-to-text R@10: 100.0 Image-to-text R@5: 100.0 Text-to-image R@1: 93.3 Text-to-image R@10: 99.8 Text-to-image R@5: 99.4 |
| image-retrieval-on-aic-icc | ERNIE-ViL2.0 | Recall@1: 19.0 Recall@10: 43.5 Recall@5: 35.3 |
| image-to-text-retrieval-on-aic-icc | ERNIE-ViL2.0 | Recall@1: 33.7 Recall@10: 60.0 Recall@5: 52.1 |
| image-to-text-retrieval-on-flickr30k | ERNIE-ViL 2.0 | Recall@1: 96.1 Recall@10: 100.0 Recall@5: 99.9 |
| zero-shot-cross-modal-retrieval-on-coco-2014 | ERNIE-ViL 2.0 | Image-to-text R@1: 63.1 Image-to-text R@10: 91.4 Image-to-text R@5: 85.7 Text-to-image R@1: 46.0 Text-to-image R@10: 80.4 Text-to-image R@5: 71.4 |
| zero-shot-cross-modal-retrieval-on-flickr30k | ERNIE-ViL 2.0 | Image-to-text R@1: 91.2 Image-to-text R@10: 99.8 Image-to-text R@5: 99.1 Text-to-image R@1: 77.4 Text-to-image R@10: 96.4 Text-to-image R@5: 93.8 |