
摘要
组合图像检索(Composed Image Retrieval, CoIR)任务涉及将图像和文本模态结合的查询,使用户能够更有效地表达其意图。然而,当前的CoIR数据集规模与其他视觉与语言(Vision and Language, V&L)数据集相比要小几个数量级。此外,这些数据集中的一些存在明显的问题,例如查询中包含冗余模态。为了解决这些问题,我们引入了大规模组合图像检索(Large Scale Composed Image Retrieval, LaSCo)数据集,这是一个比现有数据集大十倍的新CoIR数据集。在LaSCo上进行预训练显示了显著的性能提升,即使是在零样本情况下也是如此。此外,我们提出了一种新的分析CoIR数据集和方法的途径,该方法可以检测查询中的模态冗余或必要性。我们还介绍了一种新的CoIR基线模型——交叉注意力驱动的移位编码器(Cross-Attention driven Shift Encoder, CASE)。这一基线模型通过交叉注意力模块实现模态的早期融合,并在训练过程中引入了一个额外的辅助任务。实验结果表明,这种新的基线模型在诸如FashionIQ和CIRR等已建立的基准测试中超越了现有的最先进方法。
代码仓库
levymsn/LaSCo
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-cirr | CASE (Pre-trained on LaSCo.Ca) | (Recall@5+Recall_subset@1)/2: 78.25 Recall@10: 88.75 |
| image-retrieval-on-cirr | CASE | (Recall@5+Recall_subset@1)/2: 77.5 Recall@10: 87.25 |
| image-retrieval-on-fashion-iq | CASE | (Recall@10+Recall@50)/2: 59.73 Recall@10: 48.79 |
| image-retrieval-on-lasco | BLIP4CIR | Recall@1 (%): 4.26 |
| image-retrieval-on-lasco | CASE | Recall@1 (%): 7.08 |