
摘要
组合图像检索(CIR)任务接受由图像和文本组成的查询,旨在同时满足这两种条件搜索相关图像。传统的CIR方法需要一个包含查询图像、查询文本和目标图像三元组的训练数据集,而收集这样的数据集非常昂贵。最近的一些研究工作致力于零样本(ZS)CIR范式,以解决这一问题而不依赖预先收集的三元组。然而,现有的ZS-CIR方法由于训练过程中输入文本的多样性不足,表现出有限的骨干网络可扩展性和泛化能力。我们提出了一种新的CIR框架,仅使用语言进行训练。我们的LinCIR(仅语言训练的CIR)可以通过一种新颖的自我监督方法——自掩码投影(Self-Masking Projection, SMP)——仅使用文本数据集进行训练。我们将文本潜在嵌入投影到令牌嵌入空间,并通过替换原始文本中的关键词令牌来构建新文本。然后,我们让新文本和原始文本具有相同的潜在嵌入向量。通过这种简单的策略,LinCIR不仅效率惊人,而且效果显著;使用CLIP ViT-G骨干网络的LinCIR在48分钟内完成训练,并在四个不同的CIR基准测试中展现出最佳的零样本CIR性能,包括CIRCO、GeneCIS、FashionIQ和CIRR,甚至在FashionIQ上超过了监督方法的表现。代码可在https://github.com/navervision/lincir 获取。
代码仓库
navervision/lincir
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-composed-image-retrieval-zs-cir-on | LinCIR (CLIP G/14) | mAP@10: 21.01 |
| zero-shot-composed-image-retrieval-zs-cir-on | LinCIR (CLIP L/14) | mAP@10: 13.58 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | LinCIR (CLIP G/14) | R@5: 64.72 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | LinCIR (CLIP L/14) | R@5: 53.25 |
| zero-shot-composed-image-retrieval-zs-cir-on-11 | LinCIR (CLIP L/14) | A-R@1: 12.2 |
| zero-shot-composed-image-retrieval-zs-cir-on-11 | LinCIR (CLIP G/14) | A-R@1: 13.7 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | LinCIR (CLIP G/14) | (Recall@10+Recall@50)/2: 55.40 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | LinCIR (CLIP L/14) | (Recall@10+Recall@50)/2: 36.39 |
| zero-shot-composed-image-retrieval-zs-cir-on-5 | LinCIR (CLIP L/14) | Average Recall: 21.64 |
| zero-shot-composed-image-retrieval-zs-cir-on-6 | LinCIR (CLIP L/14) | (Recall@10+Recall@50)/2: 21.64 |