7 个月前

摘要

视觉-语言推理需要对视觉概念、语言语义以及最重要的这两者之间的对齐和关系有深刻的理解。为此，我们提出了LXMERT（基于Transformer的学习跨模态编码表示）框架来学习这些视觉-语言连接。在LXMERT中，我们构建了一个大规模的Transformer模型，该模型包含三个编码器：对象关系编码器、语言编码器和跨模态编码器。接下来，为了赋予我们的模型连接视觉和语言语义的能力，我们通过五个多样化的代表性预训练任务，使用大量图像-句子对对其进行预训练：掩码语言建模、掩码对象预测（特征回归和标签分类）、跨模态匹配和图像问答。这些任务有助于学习模态内部及跨模态的关系。在从预训练参数进行微调之后，我们的模型在两个视觉问答数据集（即VQA和GQA）上取得了最先进的结果。此外，我们还展示了预训练的跨模态模型的泛化能力，将其应用于一个具有挑战性的视觉推理任务NLVR2，并将之前的最佳结果提高了22%的绝对值（从54%提高到76%）。最后，我们通过详细的消融研究证明了我们的新颖模型组件和预训练策略对取得强大结果的重要贡献；同时展示了不同编码器的几种注意力可视化图。代码和预训练模型已在以下网址公开发布：https://github.com/airsplay/lxmert

源 PDF