摘要

文本-图像检索（Text-to-Image Retrieval, T2I）是指根据关键词查询恢复所有相关图像的任务。目前广泛使用的文本-图像检索数据集，如Flickr30k、VG和MS-COCO，通常采用图像标注的标题（caption）作为查询的替代表示，例如“一个男人正在和孩子玩耍”。借助此类替代查询，当前的多模态机器学习模型（如CLIP或BLIP）表现极为出色。其主要原因在于图像标题具有较强的描述性，能够详尽刻画图像内容。然而，T2I任务中的查询并不仅限于图像-标题对中所包含的直观描述。因此，这些现有数据集难以有效评估模型在更抽象或概念性查询上的表现，例如“家庭度假”这类查询中，图像内容并非直接描述，而是隐含其中。本文在描述性查询上复现了现有T2I方法的结果，并将其推广至概念性查询的场景。为此，我们在一个面向概念性查询回答的新颖T2I基准测试集ConQA上开展了新的实验。ConQA包含43,000张图像，涵盖30个描述性查询和50个概念性查询，每个查询均配有超过100张人工标注的正样本图像。在标准评估指标下的实验结果表明，无论是大型预训练模型（如CLIP、BLIP和BLIP2），还是小型模型（如SGRAF和NAAF），在描述性查询上的表现均比在概念性查询上高出最多4倍。此外，我们还发现，当查询包含超过6个关键词时（如MS-COCO标题中的常见情况），模型的性能表现更优。

源 PDF 查看代码