8 个月前

摘要

组合图像检索（CIR）任务接受由图像和文本组成的查询，旨在同时满足这两种条件搜索相关图像。传统的CIR方法需要一个包含查询图像、查询文本和目标图像三元组的训练数据集，而收集这样的数据集非常昂贵。最近的一些研究工作致力于零样本（ZS）CIR范式，以解决这一问题而不依赖预先收集的三元组。然而，现有的ZS-CIR方法由于训练过程中输入文本的多样性不足，表现出有限的骨干网络可扩展性和泛化能力。我们提出了一种新的CIR框架，仅使用语言进行训练。我们的LinCIR（仅语言训练的CIR）可以通过一种新颖的自我监督方法——自掩码投影（Self-Masking Projection, SMP）——仅使用文本数据集进行训练。我们将文本潜在嵌入投影到令牌嵌入空间，并通过替换原始文本中的关键词令牌来构建新文本。然后，我们让新文本和原始文本具有相同的潜在嵌入向量。通过这种简单的策略，LinCIR不仅效率惊人，而且效果显著；使用CLIP ViT-G骨干网络的LinCIR在48分钟内完成训练，并在四个不同的CIR基准测试中展现出最佳的零样本CIR性能，包括CIRCO、GeneCIS、FashionIQ和CIRR，甚至在FashionIQ上超过了监督方法的表现。代码可在https://github.com/navervision/lincir 获取。

源 PDF