3 个月前

基于条件与组合的图像检索:结合部分微调的CLIP特征

基于条件与组合的图像检索:结合部分微调的CLIP特征

摘要

本文提出了一种基于CLIP特征的条件化与组合式图像检索方法。在这一内容驱动的图像检索(CBIR)扩展框架中,图像与一段文本相结合,文本内容反映了用户的意图,并在电子商务等应用领域中具有重要意义。所提出的方法首先经历一个初始训练阶段,在该阶段通过简单融合视觉与文本特征,对CLIP文本编码器进行微调;随后进入第二阶段训练,学习一个更为复杂的组合网络,用于融合视觉与文本特征。两个阶段均采用对比学习(contrastive learning)策略。实验结果表明,该方法在FashionIQ数据集上的条件化CBIR任务以及在较新提出的CIRR数据集上的组合式CBIR任务中,均取得了当前最优的性能表现。

基准测试

基准方法指标
image-retrieval-on-cirrCLIP4Cir (v2)
(Recall@5+Recall_subset@1)/2: 69.09
image-retrieval-on-fashion-iqCLIP4Cir (v2)
(Recall@10+Recall@50)/2: 50.03
image-retrieval-on-lascoCLIP4CIR
Recall@1 (%): 4.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于条件与组合的图像检索:结合部分微调的CLIP特征 | 论文 | HyperAI超神经