{Davide MottinMatteo LissandriniDima SivovGil LedermanEliezer LevyNima TavassoliJuan Manuel Rodriguez}
摘要
文本-图像检索(Text-to-Image Retrieval, T2I)是指根据关键词查询恢复所有相关图像的任务。目前广泛使用的文本-图像检索数据集,如Flickr30k、VG和MS-COCO,通常采用图像标注的标题(caption)作为查询的替代表示,例如“一个男人正在和孩子玩耍”。借助此类替代查询,当前的多模态机器学习模型(如CLIP或BLIP)表现极为出色。其主要原因在于图像标题具有较强的描述性,能够详尽刻画图像内容。然而,T2I任务中的查询并不仅限于图像-标题对中所包含的直观描述。因此,这些现有数据集难以有效评估模型在更抽象或概念性查询上的表现,例如“家庭度假”这类查询中,图像内容并非直接描述,而是隐含其中。本文在描述性查询上复现了现有T2I方法的结果,并将其推广至概念性查询的场景。为此,我们在一个面向概念性查询回答的新颖T2I基准测试集ConQA上开展了新的实验。ConQA包含43,000张图像,涵盖30个描述性查询和50个概念性查询,每个查询均配有超过100张人工标注的正样本图像。在标准评估指标下的实验结果表明,无论是大型预训练模型(如CLIP、BLIP和BLIP2),还是小型模型(如SGRAF和NAAF),在描述性查询上的表现均比在概念性查询上高出最多4倍。此外,我们还发现,当查询包含超过6个关键词时(如MS-COCO标题中的常见情况),模型的性能表现更优。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-conqa-conceptual | SGRAF | R-precision: 1.3 Recall@1: 0.0 Recall@10: 10.2 Recall@5: 8.2 |
| image-retrieval-on-conqa-conceptual | BLIP 2 | R-precision: 5.4 Recall@1: 8.2 Recall@10: 36.7 Recall@5: 28.6 |
| image-retrieval-on-conqa-conceptual | BLIP | R-precision: 5.4 Recall@1: 4.1 Recall@10: 40.8 Recall@5: 28.6 |
| image-retrieval-on-conqa-conceptual | NAAF | R-precision: 2.4 Recall@1: 4.1 Recall@10: 16.3 Recall@5: 12.2 |
| image-retrieval-on-conqa-conceptual | CLIP | R-precision: 6.8 Recall@1: 12.2 Recall@10: 36.7 Recall@5: 30.6 |
| image-retrieval-on-conqa-descriptive | SGRAF | R-precision: 7.9 Recall@1: 6.9 Recall@10: 34.5 Recall@5: 24.1 |
| image-retrieval-on-conqa-descriptive | BLIP-2 | R-precision: 15.3 Recall@1: 20.7 Recall@10: 62.1 Recall@5: 51.7 |
| image-retrieval-on-conqa-descriptive | CLIP | R-precision: 16.5 Recall@1: 20.7 Recall@10: 65.5 Recall@5: 58.3 |
| image-retrieval-on-conqa-descriptive | NAAF | R-precision: 10.6 Recall@1: 13.8 Recall@10: 44.8 Recall@5: 34.5 |
| image-retrieval-on-conqa-descriptive | BLIP | R-precision: 15.3 Recall@1: 20.7 Recall@10: 62.1 Recall@5: 58.3 |