4 个月前

数据漫游与合成图像检索的质量评估

数据漫游与合成图像检索的质量评估

摘要

组合图像检索(Composed Image Retrieval, CoIR)任务涉及将图像和文本模态结合的查询,使用户能够更有效地表达其意图。然而,当前的CoIR数据集规模与其他视觉与语言(Vision and Language, V&L)数据集相比要小几个数量级。此外,这些数据集中的一些存在明显的问题,例如查询中包含冗余模态。为了解决这些问题,我们引入了大规模组合图像检索(Large Scale Composed Image Retrieval, LaSCo)数据集,这是一个比现有数据集大十倍的新CoIR数据集。在LaSCo上进行预训练显示了显著的性能提升,即使是在零样本情况下也是如此。此外,我们提出了一种新的分析CoIR数据集和方法的途径,该方法可以检测查询中的模态冗余或必要性。我们还介绍了一种新的CoIR基线模型——交叉注意力驱动的移位编码器(Cross-Attention driven Shift Encoder, CASE)。这一基线模型通过交叉注意力模块实现模态的早期融合,并在训练过程中引入了一个额外的辅助任务。实验结果表明,这种新的基线模型在诸如FashionIQ和CIRR等已建立的基准测试中超越了现有的最先进方法。

代码仓库

levymsn/LaSCo
官方
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-cirrCASE (Pre-trained on LaSCo.Ca)
(Recall@5+Recall_subset@1)/2: 78.25
Recall@10: 88.75
image-retrieval-on-cirrCASE
(Recall@5+Recall_subset@1)/2: 77.5
Recall@10: 87.25
image-retrieval-on-fashion-iqCASE
(Recall@10+Recall@50)/2: 59.73
Recall@10: 48.79
image-retrieval-on-lascoBLIP4CIR
Recall@1 (%): 4.26
image-retrieval-on-lascoCASE
Recall@1 (%): 7.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
数据漫游与合成图像检索的质量评估 | 论文 | HyperAI超神经