4 个月前

基于双模态编码器的组合图像检索候选集重排序

基于双模态编码器的组合图像检索候选集重排序

摘要

组合图像检索旨在找到最符合给定多模态用户查询(包括参考图像和文本对)的图像。现有的方法通常预先计算整个语料库的图像嵌入,并在测试时将这些嵌入与经过查询文本修改的参考图像嵌入进行比较。这种管道在测试时非常高效,因为可以使用快速向量距离来评估候选对象,但仅凭简短的文本描述来修改参考图像嵌入可能较为困难,尤其是在没有潜在候选对象的情况下。另一种方法是允许查询与每个可能的候选对象之间进行交互,即参考-文本-候选三元组,并从整个集合中挑选最佳匹配项。尽管这种方法更具辨别力,但对于大规模数据集而言,计算成本过高,因为无法预先计算候选对象的嵌入。我们提出了一种两阶段模型,结合了两种方案的优点。第一阶段采用传统的向量距离度量方法,对候选对象进行快速筛选;第二阶段则使用双编码器架构,有效关注输入的参考-文本-候选三元组并重新排序候选对象。两个阶段均利用了视觉与语言预训练网络,该网络已被证明对各种下游任务有益。我们的方法在标准基准测试中始终优于当前最先进的方法。我们的实现代码可在以下链接获取:https://github.com/Cuberick-Orion/Candidate-Reranking-CIR。

代码仓库

Cuberick-Orion/Bi-Blip4CIR
pytorch
GitHub 中提及
Cuberick-Orion/Candidate-Reranking-CIR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-cirrCandidate Set Re-ranking
(Recall@5+Recall_subset@1)/2: 80.9
Recall@10: 89.78
image-retrieval-on-fashion-iqCandidate Set Re-ranking
(Recall@10+Recall@50)/2: 62.15
Recall@10: 51.17

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于双模态编码器的组合图像检索候选集重排序 | 论文 | HyperAI超神经