Xiujun LiXi YinChunyuan LiPengchuan ZhangXiaowei HuLei ZhangLijuan WangHoudong HuLi DongFuru WeiYejin ChoiJianfeng Gao

摘要
基于图像-文本对的大规模预训练方法在视觉-语言任务中日益流行。现有方法通常简单地将图像区域特征与文本特征拼接作为模型输入,并通过自注意力机制以“蛮力”方式学习图像与文本之间的语义对齐。本文提出一种新的预训练方法——Oscar(Object-Semantics Aligned Pre-training),该方法利用图像中检测到的物体标签作为锚点,显著降低对齐学习的难度。这一方法的提出基于一个观察:图像中的显著物体通常能够被准确检测到,且常在对应的文本中被提及。我们在包含650万对图文数据的公开语料库上预训练Oscar模型,并在下游任务中进行微调,成功在六个广受认可的视觉-语言理解与生成任务上刷新了当前最优性能(SOTA)。
代码仓库
microsoft/Oscar
官方
pytorch
GitHub 中提及
ThanThoai/Visual-Question-Answering_Vietnamese
pytorch
GitHub 中提及
milvlg/rosita
pytorch
GitHub 中提及
rmokady/clip_prefix_caption
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | Oscar | Image-to-text R@1: 73.5 Image-to-text R@10: 96.0 Image-to-text R@5: 92.2 Text-to-image R@1: 57.5 Text-to-image R@10: 89.8 Text-to-image R@5: 82.8 |
| image-captioning-on-coco-captions | Oscar | BLEU-4: 41.7 CIDER: 140 METEOR: 30.6 SPICE: 24.5 |
| image-captioning-on-nocaps-val-overall | OSCAR | CIDEr: 80.9 Pretrain (#images): 345M SPICE: 11.3 |
| image-retrieval-on-coco | Oscar | Recall@10: 98.3 |
| image-text-matching-on-commercialadsdataset | OSCAR | ADD(S) AUC: 87.45 |
| image-to-text-retrieval-on-coco | Oscar | Recall@10: 99.8 |
| visual-question-answering-on-vqa-v2-test-dev | Oscar | Accuracy: 73.82 |