4 个月前

LXMERT:从Transformer学习跨模态编码器表示

LXMERT:从Transformer学习跨模态编码器表示

摘要

视觉-语言推理需要对视觉概念、语言语义以及最重要的这两者之间的对齐和关系有深刻的理解。为此,我们提出了LXMERT(基于Transformer的学习跨模态编码表示)框架来学习这些视觉-语言连接。在LXMERT中,我们构建了一个大规模的Transformer模型,该模型包含三个编码器:对象关系编码器、语言编码器和跨模态编码器。接下来,为了赋予我们的模型连接视觉和语言语义的能力,我们通过五个多样化的代表性预训练任务,使用大量图像-句子对对其进行预训练:掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答。这些任务有助于学习模态内部及跨模态的关系。在从预训练参数进行微调之后,我们的模型在两个视觉问答数据集(即VQA和GQA)上取得了最先进的结果。此外,我们还展示了预训练的跨模态模型的泛化能力,将其应用于一个具有挑战性的视觉推理任务NLVR2,并将之前的最佳结果提高了22%的绝对值(从54%提高到76%)。最后,我们通过详细的消融研究证明了我们的新颖模型组件和预训练策略对取得强大结果的重要贡献;同时展示了不同编码器的几种注意力可视化图。代码和预训练模型已在以下网址公开发布:https://github.com/airsplay/lxmert

代码仓库

social-ai-studio/matk
pytorch
GitHub 中提及
airsplay/lxmert
官方
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
zhegan27/VILLA
pytorch
GitHub 中提及
zhegan27/LXMERT-AdvTrain
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-a-okvqaLXMERT
DA VQA Score: 25.9
MC Accuracy: 41.6
visual-question-answering-on-gqa-test-devLXMERT (Pre-train + scratch)
Accuracy: 60.0
visual-question-answering-on-gqa-test-stdLXMERT
Accuracy: 60.3
visual-question-answering-on-gqa-test2019LXR955, Ensemble
Accuracy: 62.71
Binary: 79.79
Consistency: 93.1
Distribution: 6.42
Open: 47.64
Plausibility: 85.21
Validity: 96.36
visual-question-answering-on-gqa-test2019LXR955, Single Model
Accuracy: 60.33
Binary: 77.16
Consistency: 89.59
Distribution: 5.69
Open: 45.47
Plausibility: 84.53
Validity: 96.35
visual-question-answering-on-vizwiz-2018-1LXR955, No Ensemble
number: 24.76
other: 39.0
overall: 55.4
unanswerable: 82.26
yes/no: 74.0
visual-question-answering-on-vqa-v2-test-devLXMERT (Pre-train + scratch)
Accuracy: 69.9
visual-question-answering-on-vqa-v2-test-stdLXMERT
overall: 72.5
visual-reasoning-on-nlvr2-devLXMERT (Pre-train + scratch)
Accuracy: 74.9
visual-reasoning-on-nlvr2-testLXMERT
Accuracy: 76.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LXMERT:从Transformer学习跨模态编码器表示 | 论文 | HyperAI超神经