
摘要
联合图像-文本嵌入是大多数视觉与语言(V+L)任务的基础,其中多模态输入被同时处理以实现联合的视觉和文本理解。本文介绍了UNITER,一种通过在四个图像-文本数据集(COCO、Visual Genome、Conceptual Captions 和 SBU Captions)上进行大规模预训练而学到的通用图像-文本表示,该表示可以利用联合多模态嵌入来支持不同的下游 V+L 任务。我们设计了四种预训练任务:掩码语言模型(MLM)、掩码区域模型(MRM,有三种变体)、图像-文本匹配(ITM)和词-区域对齐(WRA)。与之前的工作不同,后者对两种模态都应用联合随机掩码,我们在预训练任务中使用条件掩码(即,掩码语言/区域建模是在完全观察到图像/文本的情况下进行的)。除了用于全局图像-文本对齐的 ITM 外,我们还提出了基于最优传输(OT)的 WRA,在预训练过程中显式地促进单词和图像区域之间的细粒度对齐。全面分析表明,条件掩码和基于 OT 的 WRA 均有助于更好的预训练效果。我们还进行了详尽的消融研究,以找到最佳的预训练任务组合。大量实验结果表明,UNITER 在六个 V+L 任务(涵盖九个数据集)上取得了新的最先进水平,包括视觉问答、图像-文本检索、指代表达理解、视觉常识推理、视觉蕴含判断和 NLVR$^2$。代码可在 https://github.com/ChenRocks/UNITER 获取。
代码仓库
SDLZY/VCR_Align
pytorch
GitHub 中提及
vladsandulescu/hatefulmemes
pytorch
GitHub 中提及
YIKUAN8/Transformers-VQA
pytorch
lichengunc/pretrain-vl-data
GitHub 中提及
ChenRocks/UNITER
官方
pytorch
GitHub 中提及
necla-ml/SNLI-VE
GitHub 中提及
xiaomin418/cfsum
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-entailment-on-snli-ve-test | UNITER (Large) | Accuracy: 78.98 |
| visual-entailment-on-snli-ve-val | UNITER | Accuracy: 78.98 |
| visual-question-answering-on-vcr-q-a-test | UNITER (Large) | Accuracy: 77.3 |
| visual-question-answering-on-vcr-q-a-test | UNITER-large (10 ensemble) | Accuracy: 79.8 |
| visual-question-answering-on-vcr-q-ar-test | UNITER (Large) | Accuracy: 62.8 |
| visual-question-answering-on-vcr-qa-r-test | UNITER-large (ensemble of 10 models) | Accuracy: 83.4 |
| visual-question-answering-on-vcr-qa-r-test | UNITER (Large) | Accuracy: 80.8 |
| visual-question-answering-on-vqa-v2-test-dev | UNITER (Large) | Accuracy: 73.24 |
| visual-question-answering-on-vqa-v2-test-std | UNITER (Large) | overall: 73.4 |
| visual-reasoning-on-nlvr2-test | UNITER (Large) | Accuracy: 79.5 |
| zero-shot-cross-modal-retrieval-on-flickr30k | UNITER | Image-to-text R@1: 80.7 Image-to-text R@10: 98.0 Image-to-text R@5: 95.7 Text-to-image R@1: 66.2 Text-to-image R@10: 92.9 Text-to-image R@5: 88.4 |