4 个月前

视觉-语言预训练与三重对比学习

Jinyu Yang; Jiali Duan; Son Tran; Yi Xu; Sampath Chanda; Liqun Chen; Belinda Zeng; Trishul Chilimbi; Junzhou Huang

摘要

视觉-语言表示学习在很大程度上受益于通过对比损失（例如，InfoNCE损失）实现的图像-文本对齐。这种对齐策略的成功归因于其能够在图像与其匹配的文本之间最大化互信息（MI）。然而，仅仅进行跨模态对齐（CMA）会忽略每个模态内部的数据潜力，这可能导致表示质量下降。例如，尽管基于CMA的模型能够在嵌入空间中将图像-文本对映射得非常接近，但它们无法确保同一模态中的相似输入也保持相近。当预训练数据存在噪声时，这个问题可能会变得更加严重。在本文中，我们提出了一种用于视觉-语言预训练的三重对比学习（TCL），该方法利用了跨模态和模态内自监督的优势。除了CMA之外，TCL还引入了一个模态内对比目标，为表示学习提供了互补的好处。为了充分利用图像和文本输入中的局部和结构信息，TCL进一步最大化了图像/文本局部区域与其全局摘要之间的平均互信息（MI）。据我们所知，这是第一项考虑局部结构信息进行多模态表示学习的工作。实验评估表明，我们的方法具有竞争力，并在各种常见的下游视觉-语言任务（如图像-文本检索和视觉问答）中达到了新的最先进水平。

代码仓库

uta-smile/TCL

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
cross-modal-retrieval-on-coco-2014	TCL	Image-to-text R@1: 75.6 Image-to-text R@10: 96.7 Image-to-text R@5: 92.8 Text-to-image R@1: 59.0 Text-to-image R@10: 89.9 Text-to-image R@5: 83.2
zero-shot-cross-modal-retrieval-on-coco-2014	TCL	Image-to-text R@1: 71.4 Image-to-text R@10: 95.4 Image-to-text R@5: 90.8 Text-to-image R@1: 53.5 Text-to-image R@10: 87.1 Text-to-image R@5: 79.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供