4 个月前

VisualBERT:一种简单且性能优异的视觉与语言基线模型

VisualBERT:一种简单且性能优异的视觉与语言基线模型

摘要

我们提出了一种简单且灵活的框架——VisualBERT,用于建模广泛的视觉与语言任务。VisualBERT由多层Transformer组成,通过自注意力机制隐式地对齐输入文本中的元素和相关输入图像中的区域。此外,我们还提出了两个基于视觉的预训练语言模型目标,以利用图像字幕数据对VisualBERT进行预训练。在包括VQA(视觉问答)、VCR(视觉常识推理)、NLVR2(自然语言推理)和Flickr30K在内的四个视觉与语言任务上的实验表明,VisualBERT不仅显著简化了模型结构,而且在性能上超过了或与现有最先进模型相当。进一步分析显示,VisualBERT能够在没有任何显式监督的情况下将语言元素与图像区域对齐,并且对句法关系敏感,例如能够追踪动词与其论元对应的图像区域之间的关联。

基准测试

基准方法指标
phrase-grounding-on-flickr30k-entities-devVisualBERT
R@1: 70.4
R@10: 86.31
R@5: 84.49
phrase-grounding-on-flickr30k-entities-testVisualBERT
R@1: 71.33
R@10: 86.51
R@5: 84.98
visual-question-answering-on-vcr-q-a-devVisualBERT
Accuracy: 70.8
visual-question-answering-on-vcr-q-a-testVisualBERT
Accuracy: 71.6
visual-question-answering-on-vcr-q-ar-devVisualBERT
Accuracy: 52.2
visual-question-answering-on-vcr-q-ar-testVisualBERT
Accuracy: 52.4
visual-question-answering-on-vcr-qa-r-devVisualBERT
Accuracy: 73.2
visual-question-answering-on-vcr-qa-r-testVisualBERT
Accuracy: 73.2
visual-question-answering-on-vqa-v2-test-devVisualBERT
Accuracy: 70.8
visual-question-answering-on-vqa-v2-test-stdVisualBERT
overall: 71
visual-reasoning-on-nlvrVisualBERT
Accuracy (Dev): 67.4%
Accuracy (Test-P): 67%
Accuracy (Test-U): 67.3%
visual-reasoning-on-nlvr2-devVisualBERT
Accuracy: 66.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VisualBERT:一种简单且性能优异的视觉与语言基线模型 | 论文 | HyperAI超神经