3 个月前

基于CLIP特征的有效条件化与组合图像检索

基于CLIP特征的有效条件化与组合图像检索

摘要

条件化与组合式图像检索通过将查询图像与一段附加文本相结合,拓展了传统内容基于图像检索(CBIR)系统的能力。该文本用于表达用户的意图,描述相对于查询图像视觉内容的额外需求。此类检索方式在电子商务应用中具有重要意义,例如可用于构建交互式多模态搜索系统或智能聊天机器人。在本次演示中,我们展示了一个基于组合网络的交互式系统,该网络采用对比学习进行训练,能够融合来自OpenAI CLIP模型的视觉与文本特征,以实现条件化图像检索。该系统可有效提升电商平台的搜索能力。以时尚领域为例,用户可通过一张候选起始图像,结合对视觉特征的描述(如改变颜色、图案或版型等),搜索相应的连衣裙、衬衫或上衣。所提出的网络在FashionIQ数据集和更近期的CIRR数据集上均取得了当前最优性能,充分验证了其在时尚领域条件化检索任务中的有效性,同时也展示了其在更广泛内容场景下进行组合式图像检索的通用适用性。

基准测试

基准方法指标
image-retrieval-on-cirrCLIP4Cir
(Recall@5+Recall_subset@1)/2: 63.87
image-retrieval-on-fashion-iqCLIP4Cir
(Recall@10+Recall@50)/2: 47.21

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于CLIP特征的有效条件化与组合图像检索 | 论文 | HyperAI超神经