
摘要
视觉-语言表示学习在很大程度上受益于通过对比损失(例如,InfoNCE损失)实现的图像-文本对齐。这种对齐策略的成功归因于其能够在图像与其匹配的文本之间最大化互信息(MI)。然而,仅仅进行跨模态对齐(CMA)会忽略每个模态内部的数据潜力,这可能导致表示质量下降。例如,尽管基于CMA的模型能够在嵌入空间中将图像-文本对映射得非常接近,但它们无法确保同一模态中的相似输入也保持相近。当预训练数据存在噪声时,这个问题可能会变得更加严重。在本文中,我们提出了一种用于视觉-语言预训练的三重对比学习(TCL),该方法利用了跨模态和模态内自监督的优势。除了CMA之外,TCL还引入了一个模态内对比目标,为表示学习提供了互补的好处。为了充分利用图像和文本输入中的局部和结构信息,TCL进一步最大化了图像/文本局部区域与其全局摘要之间的平均互信息(MI)。据我们所知,这是第一项考虑局部结构信息进行多模态表示学习的工作。实验评估表明,我们的方法具有竞争力,并在各种常见的下游视觉-语言任务(如图像-文本检索和视觉问答)中达到了新的最先进水平。
代码仓库
uta-smile/TCL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | TCL | Image-to-text R@1: 75.6 Image-to-text R@10: 96.7 Image-to-text R@5: 92.8 Text-to-image R@1: 59.0 Text-to-image R@10: 89.9 Text-to-image R@5: 83.2 |
| zero-shot-cross-modal-retrieval-on-coco-2014 | TCL | Image-to-text R@1: 71.4 Image-to-text R@10: 95.4 Image-to-text R@5: 90.8 Text-to-image R@1: 53.5 Text-to-image R@10: 87.1 Text-to-image R@5: 79.0 |