4 个月前

Unicoder-VL:通过跨模态预训练实现视觉与语言的通用编码器

Unicoder-VL:通过跨模态预训练实现视觉与语言的通用编码器

摘要

我们提出了一种名为Unicoder-VL的通用编码器,旨在通过预训练的方式学习视觉和语言的联合表示。借鉴了跨语言预训练模型(如XLM和Unicoder)的思想,视觉和语言内容都被输入到一个多层Transformer中进行跨模态预训练。在此过程中,采用了三种预训练任务,包括掩码语言建模(Masked Language Modeling, MLM)、掩码对象分类(Masked Object Classification, MOC)和视觉-语言匹配(Visual-linguistic Matching, VLM)。前两项任务基于视觉和语言内容的联合信息学习上下文感知的输入标记表示。最后一项任务则尝试预测图像和文本是否相互描述。在大规模图像-标题对上进行预训练后,我们将Unicoder-VL迁移到基于标题的图像-文本检索和视觉常识推理任务中,仅需增加一个额外的输出层。我们在这两个任务上均取得了最先进的或可比的结果,并展示了跨模态预训练的强大能力。

基准测试

基准方法指标
image-text-matching-on-commercialadsdatasetUnicoder-VL
ADD(S) AUC: 83.16
image-to-text-retrieval-on-cocoUnicoder-VL
Recall@10: 97.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Unicoder-VL:通过跨模态预训练实现视觉与语言的通用编码器 | 论文 | HyperAI超神经