4 个月前

想象与搜索:利用想象代理改进组合图像检索

想象与搜索:利用想象代理改进组合图像检索

摘要

零样本组合图像检索(Zero-shot Composed Image Retrieval, ZSCIR)需要检索与查询图像及其相关标题匹配的图像。目前的方法主要集中在将查询图像投影到文本特征空间中,然后将其与查询文本的特征结合进行检索。然而,仅使用文本特征进行图像检索无法保证详细的对齐,因为图像和文本之间存在天然的差距。在本文中,我们引入了用于CIR的想象代理(Imagined Proxy for CIR, IP-CIR),这是一种无需训练的方法,通过创建一个与查询图像和文本描述对齐的代理图像来增强检索过程中的查询表示。首先,我们利用大规模语言模型的泛化能力生成图像布局,然后应用查询文本和图像进行条件生成。通过融合代理图像、查询图像以及文本语义扰动,增强了鲁棒的查询特征。我们新提出的平衡度量方法集成了基于文本和代理图像的相似性,使得目标图像的检索更加准确,同时将图像侧的信息纳入整个过程。实验结果表明,在三个公开数据集上,我们的方法显著提高了检索性能。我们在CIRR数据集上取得了最先进的(State-of-the-Art, SOTA)结果,当K=10时,Recall@K为70.07%。此外,在FashionIQ数据集上,我们在Recall@10指标上也有所提升,从45.11%提高到45.74%,并在CIRCO数据集上提升了基线性能,mAPK@10分数从32.24提高到34.26。

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onIP-CIR + LDRE (CLIP L/14)
mAP@10: 27.41
zero-shot-composed-image-retrieval-zs-cir-onIP-CIR + LDRE (CLIP G/14)
mAP@10: 34.26
zero-shot-composed-image-retrieval-zs-cir-on-1IP-CIR + LDRE (CLIP L/14)
R@1: 29.76
R@10: 71.21
R@5: 58.82
R@50: 90.41
zero-shot-composed-image-retrieval-zs-cir-on-1IP-CIR + LDRE (CLIP G/14)
R@1: 39.25
R@10: 80
R@5: 70.07
R@50: 94.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
想象与搜索:利用想象代理改进组合图像检索 | 论文 | HyperAI超神经