
摘要
零样本组合图像检索(Zero-shot Composed Image Retrieval, ZSCIR)需要检索与查询图像及其相关标题匹配的图像。目前的方法主要集中在将查询图像投影到文本特征空间中,然后将其与查询文本的特征结合进行检索。然而,仅使用文本特征进行图像检索无法保证详细的对齐,因为图像和文本之间存在天然的差距。在本文中,我们引入了用于CIR的想象代理(Imagined Proxy for CIR, IP-CIR),这是一种无需训练的方法,通过创建一个与查询图像和文本描述对齐的代理图像来增强检索过程中的查询表示。首先,我们利用大规模语言模型的泛化能力生成图像布局,然后应用查询文本和图像进行条件生成。通过融合代理图像、查询图像以及文本语义扰动,增强了鲁棒的查询特征。我们新提出的平衡度量方法集成了基于文本和代理图像的相似性,使得目标图像的检索更加准确,同时将图像侧的信息纳入整个过程。实验结果表明,在三个公开数据集上,我们的方法显著提高了检索性能。我们在CIRR数据集上取得了最先进的(State-of-the-Art, SOTA)结果,当K=10时,Recall@K为70.07%。此外,在FashionIQ数据集上,我们在Recall@10指标上也有所提升,从45.11%提高到45.74%,并在CIRCO数据集上提升了基线性能,mAPK@10分数从32.24提高到34.26。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-composed-image-retrieval-zs-cir-on | IP-CIR + LDRE (CLIP L/14) | mAP@10: 27.41 |
| zero-shot-composed-image-retrieval-zs-cir-on | IP-CIR + LDRE (CLIP G/14) | mAP@10: 34.26 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | IP-CIR + LDRE (CLIP L/14) | R@1: 29.76 R@10: 71.21 R@5: 58.82 R@50: 90.41 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | IP-CIR + LDRE (CLIP G/14) | R@1: 39.25 R@10: 80 R@5: 70.07 R@50: 94.89 |