
摘要
我们提出了一种简单且灵活的框架——VisualBERT,用于建模广泛的视觉与语言任务。VisualBERT由多层Transformer组成,通过自注意力机制隐式地对齐输入文本中的元素和相关输入图像中的区域。此外,我们还提出了两个基于视觉的预训练语言模型目标,以利用图像字幕数据对VisualBERT进行预训练。在包括VQA(视觉问答)、VCR(视觉常识推理)、NLVR2(自然语言推理)和Flickr30K在内的四个视觉与语言任务上的实验表明,VisualBERT不仅显著简化了模型结构,而且在性能上超过了或与现有最先进模型相当。进一步分析显示,VisualBERT能够在没有任何显式监督的情况下将语言元素与图像区域对齐,并且对句法关系敏感,例如能够追踪动词与其论元对应的图像区域之间的关联。
代码仓库
social-ai-studio/matk
pytorch
GitHub 中提及
chenkangyang/paddle_visual_bert
paddle
GitHub 中提及
longbai1006/surgical-vqla
pytorch
GitHub 中提及
lalithjets/surgical_vqa
pytorch
GitHub 中提及
YIKUAN8/Transformers-VQA
pytorch
uclanlp/visualbert
pytorch
GitHub 中提及
gchhablani/multilingual-vqa
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| phrase-grounding-on-flickr30k-entities-dev | VisualBERT | R@1: 70.4 R@10: 86.31 R@5: 84.49 |
| phrase-grounding-on-flickr30k-entities-test | VisualBERT | R@1: 71.33 R@10: 86.51 R@5: 84.98 |
| visual-question-answering-on-vcr-q-a-dev | VisualBERT | Accuracy: 70.8 |
| visual-question-answering-on-vcr-q-a-test | VisualBERT | Accuracy: 71.6 |
| visual-question-answering-on-vcr-q-ar-dev | VisualBERT | Accuracy: 52.2 |
| visual-question-answering-on-vcr-q-ar-test | VisualBERT | Accuracy: 52.4 |
| visual-question-answering-on-vcr-qa-r-dev | VisualBERT | Accuracy: 73.2 |
| visual-question-answering-on-vcr-qa-r-test | VisualBERT | Accuracy: 73.2 |
| visual-question-answering-on-vqa-v2-test-dev | VisualBERT | Accuracy: 70.8 |
| visual-question-answering-on-vqa-v2-test-std | VisualBERT | overall: 71 |
| visual-reasoning-on-nlvr | VisualBERT | Accuracy (Dev): 67.4% Accuracy (Test-P): 67% Accuracy (Test-U): 67.3% |
| visual-reasoning-on-nlvr2-dev | VisualBERT | Accuracy: 66.7 |