8 个月前

摘要

大规模视觉与语言表示学习在各种视觉-语言任务上展示了令人鼓舞的改进。现有的大多数方法采用基于 Transformer 的多模态编码器来联合建模视觉标记（区域图像特征）和词汇标记。由于视觉标记和词汇标记未对齐，这使得多模态编码器在学习图像-文本交互方面面临挑战。本文中，我们引入了一种对比损失，用于在通过跨模态注意力机制融合（Fusing）之前对齐（ALigning）图像和文本表示（ALBEF），从而实现更加扎实的视觉与语言表示学习。与大多数现有方法不同，我们的方法不需要边界框注释或高分辨率图像。为了从噪声网络数据中提高学习效果，我们提出了一种动量蒸馏的方法，这是一种自训练方法，通过动量模型生成的伪目标进行学习。我们从互信息最大化角度对ALBEF进行了理论分析，表明不同的训练任务可以被解释为为图像-文本对生成不同视图的方式。ALBEF在多个下游视觉-语言任务上达到了最先进的性能。在图像-文本检索任务中，ALBEF的表现优于那些在数量级更大的数据集上预训练的方法。在VQA和NLVR $^2$ 任务中，ALBEF相比当前最佳方法分别实现了2.37%和3.84%的绝对性能提升，并且具有更快的推理速度。代码和预训练模型可在https://github.com/salesforce/ALBEF/ 获取。