4 个月前

VisualSparta:一种基于加权词袋模型的大规模文本到图像搜索的极其简单的方法

VisualSparta:一种基于加权词袋模型的大规模文本到图像搜索的极其简单的方法

摘要

文本到图像检索是跨模态信息检索中的一个重要任务,即根据文本查询从大量未标注的数据集中检索相关图像。在本文中,我们提出了一种名为VisualSparta(视觉-文本稀疏变换器匹配)的新模型,在准确性和效率方面均显示出显著改进。VisualSparta能够在MSCOCO和Flickr30K数据集上超越之前的最先进可扩展方法。此外,实验结果表明,它在检索速度上也具有明显优势,例如对于包含100万张图像的索引,使用CPU进行检索时,VisualSparta的速度比CPU向量搜索快约391倍,比使用GPU加速的向量搜索快约5.4倍。随着数据集规模的增大,这种速度优势更加明显,因为VisualSparta可以高效地实现为倒排索引。据我们所知,VisualSparta是首个基于变换器的文本到图像检索模型,能够在大规模数据集上实现实时搜索,并且相比之前的最先进方法在准确性上有显著提升。

代码仓库

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014VisualSparta
Text-to-image R@1: 44.4
Text-to-image R@10: 82.4
Text-to-image R@5: 72.8
image-retrieval-on-cocoVisualSparta
QPS: 451.4
Recall@10: 96.3
recall@1: 68.2
recall@5: 91.8
image-retrieval-on-flickr30kVisualSparta
QPS: 451.4
Recall@1: 57.4
Recall@10: 88.1
Recall@5: 82.0
image-retrieval-on-flickr30k-1k-testVisualSparta
R@1: 57.4
R@10: 88.1
R@5: 82.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VisualSparta:一种基于加权词袋模型的大规模文本到图像搜索的极其简单的方法 | 论文 | HyperAI超神经