4 个月前

句子级提示有助于组合图像检索

句子级提示有助于组合图像检索

摘要

组合图像检索(CIR)是指通过使用包含参考图像和相对描述的查询来检索特定图像的任务。现有的大多数CIR模型采用后期融合策略来结合视觉特征和语言特征。此外,还有一些方法建议从参考图像生成伪词标记,进一步将其整合到相对描述中以实现CIR。然而,当目标图像对参考图像进行复杂变化时,例如物体移除和属性修改,这些基于伪词的提示方法存在局限性。在本研究中,我们证明了为相对描述学习一个合适的句子级提示(SPRC)足以实现有效的组合图像检索。我们提出利用预训练的视觉-语言(V-L)模型,如BLIP-2,生成句子级提示。通过将学习到的句子级提示与相对描述连接起来,可以方便地使用现有的基于文本的图像检索模型来提升CIR性能。此外,我们引入了图像-文本对比损失和文本提示对齐损失,以强化适合句子级提示的学习。实验结果表明,我们的方法在Fashion-IQ和CIRR数据集上优于现有的最先进的CIR方法。源代码和预训练模型已公开发布在 https://github.com/chunmeifeng/SPRC。

代码仓库

chunmeifeng/sprc
官方
pytorch

基准测试

基准方法指标
image-retrieval-on-cirrSPRC2
(Recall@5+Recall_subset@1)/2: 82.66
Recall@10: 90.39
image-retrieval-on-cirrSPRC
(Recall@5+Recall_subset@1)/2: 81.39
Recall@10: 89.74
image-retrieval-on-fashion-iqSPRC
(Recall@10+Recall@50)/2: 64.85
Recall@10: 54.92

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
句子级提示有助于组合图像检索 | 论文 | HyperAI超神经