4 个月前

仅语言高效的零样本组合图像检索训练

仅语言高效的零样本组合图像检索训练

摘要

组合图像检索(CIR)任务接受由图像和文本组成的查询,旨在同时满足这两种条件搜索相关图像。传统的CIR方法需要一个包含查询图像、查询文本和目标图像三元组的训练数据集,而收集这样的数据集非常昂贵。最近的一些研究工作致力于零样本(ZS)CIR范式,以解决这一问题而不依赖预先收集的三元组。然而,现有的ZS-CIR方法由于训练过程中输入文本的多样性不足,表现出有限的骨干网络可扩展性和泛化能力。我们提出了一种新的CIR框架,仅使用语言进行训练。我们的LinCIR(仅语言训练的CIR)可以通过一种新颖的自我监督方法——自掩码投影(Self-Masking Projection, SMP)——仅使用文本数据集进行训练。我们将文本潜在嵌入投影到令牌嵌入空间,并通过替换原始文本中的关键词令牌来构建新文本。然后,我们让新文本和原始文本具有相同的潜在嵌入向量。通过这种简单的策略,LinCIR不仅效率惊人,而且效果显著;使用CLIP ViT-G骨干网络的LinCIR在48分钟内完成训练,并在四个不同的CIR基准测试中展现出最佳的零样本CIR性能,包括CIRCO、GeneCIS、FashionIQ和CIRR,甚至在FashionIQ上超过了监督方法的表现。代码可在https://github.com/navervision/lincir 获取。

代码仓库

navervision/lincir
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onLinCIR (CLIP G/14)
mAP@10: 21.01
zero-shot-composed-image-retrieval-zs-cir-onLinCIR (CLIP L/14)
mAP@10: 13.58
zero-shot-composed-image-retrieval-zs-cir-on-1LinCIR (CLIP G/14)
R@5: 64.72
zero-shot-composed-image-retrieval-zs-cir-on-1LinCIR (CLIP L/14)
R@5: 53.25
zero-shot-composed-image-retrieval-zs-cir-on-11LinCIR (CLIP L/14)
A-R@1: 12.2
zero-shot-composed-image-retrieval-zs-cir-on-11LinCIR (CLIP G/14)
A-R@1: 13.7
zero-shot-composed-image-retrieval-zs-cir-on-2LinCIR (CLIP G/14)
(Recall@10+Recall@50)/2: 55.40
zero-shot-composed-image-retrieval-zs-cir-on-2LinCIR (CLIP L/14)
(Recall@10+Recall@50)/2: 36.39
zero-shot-composed-image-retrieval-zs-cir-on-5LinCIR (CLIP L/14)
Average Recall: 21.64
zero-shot-composed-image-retrieval-zs-cir-on-6LinCIR (CLIP L/14)
(Recall@10+Recall@50)/2: 21.64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
仅语言高效的零样本组合图像检索训练 | 论文 | HyperAI超神经