4 个月前

Pic2Word:将图片映射为单词以实现零样本组合图像检索

Pic2Word:将图片映射为单词以实现零样本组合图像检索

摘要

在组合图像检索(Composed Image Retrieval, CIR)中,用户将查询图像与文本结合,以描述其预期的目标。现有的方法依赖于使用标记的三元组(包括查询图像、文本说明和目标图像)对CIR模型进行监督学习。然而,标记这些三元组的成本较高,限制了CIR的广泛应用。在这项工作中,我们提出研究一个重要的任务——零样本组合图像检索(Zero-Shot Composed Image Retrieval, ZS-CIR),其目标是在无需训练用的标记三元组的情况下构建CIR模型。为此,我们提出了一种称为Pic2Word的新方法,该方法仅需弱标记的图像-标题对和未标记的图像数据集即可进行训练。与现有的监督CIR模型不同,我们的模型在弱标记或未标记的数据集上训练后,在多种ZS-CIR任务中表现出强大的泛化能力,例如属性编辑、对象组合和域转换。我们的方法在常见的CIR基准测试数据集CIRR和Fashion-IQ上优于几种监督CIR方法。代码将在https://github.com/google-research/composed_image_retrieval公开发布。

代码仓库

google-research/composed_image_retrieval
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onPic2Word
mAP@10: 9.51
zero-shot-composed-image-retrieval-zs-cir-on-1Pic2Word
R@5: 51.70
zero-shot-composed-image-retrieval-zs-cir-on-2Pic2Word
(Recall@10+Recall@50)/2: 34.20
zero-shot-composed-image-retrieval-zs-cir-on-4Pic2Word
Actions Recall@5: 24.8
zero-shot-composed-image-retrieval-zs-cir-on-5Pic2Word
Average Recall: 18.85
zero-shot-composed-image-retrieval-zs-cir-on-6Pic2Word
(Recall@10+Recall@50)/2: 16.65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Pic2Word:将图片映射为单词以实现零样本组合图像检索 | 论文 | HyperAI超神经