
摘要
文本到图像检索是跨模态信息检索中的一个重要任务,即根据文本查询从大量未标注的数据集中检索相关图像。在本文中,我们提出了一种名为VisualSparta(视觉-文本稀疏变换器匹配)的新模型,在准确性和效率方面均显示出显著改进。VisualSparta能够在MSCOCO和Flickr30K数据集上超越之前的最先进可扩展方法。此外,实验结果表明,它在检索速度上也具有明显优势,例如对于包含100万张图像的索引,使用CPU进行检索时,VisualSparta的速度比CPU向量搜索快约391倍,比使用GPU加速的向量搜索快约5.4倍。随着数据集规模的增大,这种速度优势更加明显,因为VisualSparta可以高效地实现为倒排索引。据我们所知,VisualSparta是首个基于变换器的文本到图像检索模型,能够在大规模数据集上实现实时搜索,并且相比之前的最先进方法在准确性上有显著提升。
代码仓库
soco-ai/SF-QA
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | VisualSparta | Text-to-image R@1: 44.4 Text-to-image R@10: 82.4 Text-to-image R@5: 72.8 |
| image-retrieval-on-coco | VisualSparta | QPS: 451.4 Recall@10: 96.3 recall@1: 68.2 recall@5: 91.8 |
| image-retrieval-on-flickr30k | VisualSparta | QPS: 451.4 Recall@1: 57.4 Recall@10: 88.1 Recall@5: 82.0 |
| image-retrieval-on-flickr30k-1k-test | VisualSparta | R@1: 57.4 R@10: 88.1 R@5: 82.0 |