4 个月前

预训练如同推理:掩码调优改进零样本组合图像检索

预训练如同推理:掩码调优改进零样本组合图像检索

摘要

零样本组合图像检索(ZS-CIR)在数据挖掘领域中越来越受到关注,该方法通过一个文本修改和一个参考图像作为查询来检索目标图像,而无需三元组标签。目前的 ZS-CIR 研究主要依赖于预训练视觉-语言模型(如 CLIP)的泛化能力。然而,预训练视觉-语言模型与 CIR 任务之间存在显著差异,前者侧重于学习相似性,而后者则旨在通过文本指导学习图像的修改。本文介绍了一种新颖的无标签预训练掩码调优方法,该方法缩小了预训练视觉-语言模型与下游 CIR 任务之间的差距。首先,为了减少这种差距,我们将视觉-语言模型的对比学习重新表述为 CIR 任务,其中我们随机遮蔽输入图像块以从图像-文本对生成 $\langle$ 遮蔽图像, 文本, 图像 $\rangle$ 三元组。然后,我们提出了一种简单但新颖的预训练掩码调优方法,该方法利用文本和遮蔽图像来学习原始图像的修改。通过这种简洁的设计,所提出的掩码调优方法能够更好地捕捉细粒度的文本引导修改。广泛的实验结果表明,我们的方法在四个 ZS-CIR 数据集(包括 FashionIQ、CIRR、CIRCO 和 GeneCIS)上显著优于基线模型。我们的代码可在 https://github.com/Chen-Junyang-cn/PLI 获取。

代码仓库

Chen-Junyang-cn/PLI
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onMTCIR (BLIP B/16)
mAP@10: 8.03
zero-shot-composed-image-retrieval-zs-cir-onMTCIR (CLIP L/14)
mAP@10: 11.63
zero-shot-composed-image-retrieval-zs-cir-on-1MTCIR (CLIP L/14)
R@5: 54.58
zero-shot-composed-image-retrieval-zs-cir-on-1MTCIR (BLIP B/16)
R@5: 58.87
zero-shot-composed-image-retrieval-zs-cir-on-2MTCIR (CLIP L/14)
(Recall@10+Recall@50)/2: 46.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练如同推理:掩码调优改进零样本组合图像检索 | 论文 | HyperAI超神经