
摘要
组合图像检索(Composed Image Retrieval, CoIR)近年来作为一种同时考虑文本和图像查询的任务,以在数据库中搜索相关图像而受到关注。大多数CoIR方法需要手动标注的数据集,这些数据集包含图像-文本-图像三元组,其中文本描述了从查询图像到目标图像的修改。然而,手动创建CoIR三元组的成本高昂且难以扩展。在这项工作中,我们提出了一种可扩展的自动数据集创建方法,该方法利用视频-字幕对生成三元组,并将任务范围扩展到组合视频检索(Composed Video Retrieval, CoVR)。为此,我们从大型数据库中挖掘具有相似字幕的配对视频,并利用大规模语言模型生成相应的修改文本。我们将这种方法应用于庞大的WebVid2M集合,自动构建了我们的WebVid-CoVR数据集,共生成160万个三元组。此外,我们引入了一个新的CoVR基准测试,并提供了一个手动标注的评估集以及基线结果。为了进一步验证我们的方法同样适用于图像-字幕对,我们使用Conceptual Captions数据集生成了330万个CoIR训练三元组。我们的模型基于BLIP-2预训练,并适应于组合视频(或图像)检索,通过引入额外的字幕检索损失来利用超出三元组之外的监督信息。我们提供了广泛的消融实验来分析新CoVR基准测试中的设计选择。实验还表明,在我们的数据集上训练的CoVR模型可以有效地迁移到CoIR,在CIRR、FashionIQ和CIRCO基准测试的零样本设置中取得了改进的最先进性能。我们的代码、数据集和模型已在https://imagine.enpc.fr/~ventural/covr/ 公开发布。
代码仓库
lucas-ventura/CoVR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| composed-image-retrieval-coir-on-cirr-1 | CoVR-BLIP | (Recall@5+Recall_subset@1)/2: 76.81 |
| composed-image-retrieval-coir-on-cirr-1 | CoVR-BLIP-2 | R@1: 50.43 R@5: 81.08 |
| composed-image-retrieval-coir-on-fashion-iq | CoVR-BLIP-2 | (Recall@10+Recall@50)/2: 60.57 R@10: 49.96 R@50: 71.17 |
| composed-video-retrieval-covr-on-covr | CoVR-BLIP | R@5: 79.93 |
| composed-video-retrieval-covr-on-covr | BLIP-2 | R@1: 59.82 |
| zero-shot-composed-image-retrieval-zs-cir-on | CoVR-BLIP-2 | mAP@10: 29.55 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | CoVR-BLIP-2 | R@1: 43.74 R@10: 83.95 R@5: 73.61 R@50: 96.1 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | CoVR-BLIP-2 | (Recall@10+Recall@50)/2: 48.3 R@10: 38.15 R@50: 58.44 |