4 个月前

CoVR-2:复合视频检索的自动数据构建

CoVR-2:复合视频检索的自动数据构建

摘要

组合图像检索(Composed Image Retrieval, CoIR)近年来作为一种同时考虑文本和图像查询的任务,以在数据库中搜索相关图像而受到关注。大多数CoIR方法需要手动标注的数据集,这些数据集包含图像-文本-图像三元组,其中文本描述了从查询图像到目标图像的修改。然而,手动创建CoIR三元组的成本高昂且难以扩展。在这项工作中,我们提出了一种可扩展的自动数据集创建方法,该方法利用视频-字幕对生成三元组,并将任务范围扩展到组合视频检索(Composed Video Retrieval, CoVR)。为此,我们从大型数据库中挖掘具有相似字幕的配对视频,并利用大规模语言模型生成相应的修改文本。我们将这种方法应用于庞大的WebVid2M集合,自动构建了我们的WebVid-CoVR数据集,共生成160万个三元组。此外,我们引入了一个新的CoVR基准测试,并提供了一个手动标注的评估集以及基线结果。为了进一步验证我们的方法同样适用于图像-字幕对,我们使用Conceptual Captions数据集生成了330万个CoIR训练三元组。我们的模型基于BLIP-2预训练,并适应于组合视频(或图像)检索,通过引入额外的字幕检索损失来利用超出三元组之外的监督信息。我们提供了广泛的消融实验来分析新CoVR基准测试中的设计选择。实验还表明,在我们的数据集上训练的CoVR模型可以有效地迁移到CoIR,在CIRR、FashionIQ和CIRCO基准测试的零样本设置中取得了改进的最先进性能。我们的代码、数据集和模型已在https://imagine.enpc.fr/~ventural/covr/ 公开发布。

代码仓库

lucas-ventura/CoVR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
composed-image-retrieval-coir-on-cirr-1CoVR-BLIP
(Recall@5+Recall_subset@1)/2: 76.81
composed-image-retrieval-coir-on-cirr-1CoVR-BLIP-2
R@1: 50.43
R@5: 81.08
composed-image-retrieval-coir-on-fashion-iqCoVR-BLIP-2
(Recall@10+Recall@50)/2: 60.57
R@10: 49.96
R@50: 71.17
composed-video-retrieval-covr-on-covrCoVR-BLIP
R@5: 79.93
composed-video-retrieval-covr-on-covrBLIP-2
R@1: 59.82
zero-shot-composed-image-retrieval-zs-cir-onCoVR-BLIP-2
mAP@10: 29.55
zero-shot-composed-image-retrieval-zs-cir-on-1CoVR-BLIP-2
R@1: 43.74
R@10: 83.95
R@5: 73.61
R@50: 96.1
zero-shot-composed-image-retrieval-zs-cir-on-2CoVR-BLIP-2
(Recall@10+Recall@50)/2: 48.3
R@10: 38.15
R@50: 58.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoVR-2:复合视频检索的自动数据构建 | 论文 | HyperAI超神经