4 个月前

ViLBERT:为视觉-语言任务预训练任务无关的视听表征

ViLBERT:为视觉-语言任务预训练任务无关的视听表征

摘要

我们介绍了ViLBERT(Vision-and-Language BERT的简称),这是一种用于学习图像内容和自然语言任务无关的联合表示的模型。我们将流行的BERT架构扩展为多模态双流模型,分别处理视觉和文本输入,并通过共注意变压器层进行交互。我们在大规模自动收集的概念字幕数据集上通过两个代理任务对模型进行了预训练,然后仅在基础架构上进行少量修改,将其迁移到多个已建立的视觉与语言任务中——包括视觉问答、视觉常识推理、指代表达和基于字幕的图像检索。我们观察到,与现有的任务特定模型相比,在这些任务上取得了显著的改进——在所有四个任务中均达到了最先进的水平。我们的工作代表了从仅作为任务训练的一部分来学习视觉与语言之间的对应关系,向将视觉对应关系视为可预训练和可迁移的能力这一转变。

代码仓库

jialinwu17/tmpimgs
pytorch
GitHub 中提及
Mehrab-Tanjim/enforce-reasoning
pytorch
GitHub 中提及
zihaow123/unimm
pytorch
GitHub 中提及
vmurahari3/visdial-bert
pytorch
GitHub 中提及
jiasenlu/vilbert_beta
pytorch
GitHub 中提及
hwanheelee1993/vilbertscore
pytorch
GitHub 中提及
johntiger1/multitask_multimodal
pytorch
GitHub 中提及
fuqianya/ViLBERT-Paddle
paddle
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-a-okvqaViLBERT - OK-VQA
DA VQA Score: 9.2
MC Accuracy: 34.1
visual-question-answering-on-a-okvqaViLBERT
DA VQA Score: 25.9
MC Accuracy: 41.5
visual-question-answering-on-a-okvqaViLBERT - VQA
DA VQA Score: 12.0
MC Accuracy: 42.1
visual-question-answering-on-vqa-v2-test-devViLBERT
Accuracy: 70.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViLBERT:为视觉-语言任务预训练任务无关的视听表征 | 论文 | HyperAI超神经