4 个月前

通过对比学习调整正负样本以改进组合图像检索

通过对比学习调整正负样本以改进组合图像检索

摘要

组合图像检索(CIR)任务的目标是使用由参考图像和修改后的文本组成的复合查询来检索目标图像。先进的方法通常以对比学习作为优化目标,这种方法得益于充足的正例和负例。然而,CIR中的三元组需要高昂的人工标注成本,导致正例数量有限。此外,现有方法普遍采用批量内负采样,这减少了模型可用的负例数量。为了解决正例不足的问题,我们提出了一种数据生成方法,通过利用多模态大语言模型构建CIR的三元组。为了在微调过程中引入更多的负例,我们设计了一个两阶段微调框架,其中第二阶段引入了大量静态负表示,以快速优化表示空间。上述两项改进可以有效叠加,并设计为即插即用的形式,无需改变现有CIR模型的原始架构即可轻松应用。广泛的实验和消融分析表明,我们的方法能够有效地扩展正例和负例,并在FashionIQ和CIRR数据集上取得了最先进的结果。此外,我们的方法在零样本组合图像检索中也表现出色,为低资源场景提供了一种新的CIR解决方案。我们的代码和数据已发布在https://github.com/BUAADreamer/SPN4CIR。

代码仓库

BUAADreamer/SPN4CIR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-cirrSPN4CIR
(Recall@5+Recall_subset@1)/2: 82.69
image-retrieval-on-cirrSPN4CIR (SPRC)
(Recall@5+Recall_subset@1)/2: 82.69
Recall@10: 90.87
image-retrieval-on-fashion-iqSPN4CIR (SPRC)
(Recall@10+Recall@50)/2: 66.41
Recall@10: 56.37
image-retrieval-on-fashion-iqSPN4CIR
(Recall@10+Recall@50)/2: 66.41
zero-shot-composed-image-retrieval-zs-cir-on-1SPN4CIR (SPN-CC)
R@5: 65.42
Rsubset@1: 64.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过对比学习调整正负样本以改进组合图像检索 | 论文 | HyperAI超神经