4 个月前

UNITER：通用图像-文本表示学习

Yen-Chun Chen; Linjie Li; Licheng Yu; Ahmed El Kholy; Faisal Ahmed; Zhe Gan; Yu Cheng; Jingjing Liu

摘要

联合图像-文本嵌入是大多数视觉与语言（V+L）任务的基础，其中多模态输入被同时处理以实现联合的视觉和文本理解。本文介绍了UNITER，一种通过在四个图像-文本数据集（COCO、Visual Genome、Conceptual Captions 和 SBU Captions）上进行大规模预训练而学到的通用图像-文本表示，该表示可以利用联合多模态嵌入来支持不同的下游 V+L 任务。我们设计了四种预训练任务：掩码语言模型（MLM）、掩码区域模型（MRM，有三种变体）、图像-文本匹配（ITM）和词-区域对齐（WRA）。与之前的工作不同，后者对两种模态都应用联合随机掩码，我们在预训练任务中使用条件掩码（即，掩码语言/区域建模是在完全观察到图像/文本的情况下进行的）。除了用于全局图像-文本对齐的 ITM 外，我们还提出了基于最优传输（OT）的 WRA，在预训练过程中显式地促进单词和图像区域之间的细粒度对齐。全面分析表明，条件掩码和基于 OT 的 WRA 均有助于更好的预训练效果。我们还进行了详尽的消融研究，以找到最佳的预训练任务组合。大量实验结果表明，UNITER 在六个 V+L 任务（涵盖九个数据集）上取得了新的最先进水平，包括视觉问答、图像-文本检索、指代表达理解、视觉常识推理、视觉蕴含判断和 NLVR$^2$。代码可在 https://github.com/ChenRocks/UNITER 获取。

代码仓库

SDLZY/VCR_Align

pytorch

GitHub 中提及

vladsandulescu/hatefulmemes

pytorch

GitHub 中提及

YIKUAN8/Transformers-VQA

pytorch

lichengunc/pretrain-vl-data

GitHub 中提及

ChenRocks/UNITER

官方

pytorch

GitHub 中提及

necla-ml/SNLI-VE

GitHub 中提及

xiaomin418/cfsum

pytorch

GitHub 中提及

基准测试

基准	方法	指标
visual-entailment-on-snli-ve-test	UNITER (Large)	Accuracy: 78.98
visual-entailment-on-snli-ve-val	UNITER	Accuracy: 78.98
visual-question-answering-on-vcr-q-a-test	UNITER (Large)	Accuracy: 77.3
visual-question-answering-on-vcr-q-a-test	UNITER-large (10 ensemble)	Accuracy: 79.8
visual-question-answering-on-vcr-q-ar-test	UNITER (Large)	Accuracy: 62.8
visual-question-answering-on-vcr-qa-r-test	UNITER-large (ensemble of 10 models)	Accuracy: 83.4
visual-question-answering-on-vcr-qa-r-test	UNITER (Large)	Accuracy: 80.8
visual-question-answering-on-vqa-v2-test-dev	UNITER (Large)	Accuracy: 73.24
visual-question-answering-on-vqa-v2-test-std	UNITER (Large)	overall: 73.4
visual-reasoning-on-nlvr2-test	UNITER (Large)	Accuracy: 79.5
zero-shot-cross-modal-retrieval-on-flickr30k	UNITER	Image-to-text R@1: 80.7 Image-to-text R@10: 98.0 Image-to-text R@5: 95.7 Text-to-image R@1: 66.2 Text-to-image R@10: 92.9 Text-to-image R@5: 88.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供