4 个月前

MagicLens:基于开放指令的自监督图像检索

MagicLens:基于开放指令的自监督图像检索

摘要

图像检索,即根据参考图像找到所需的图像,本质上包含了丰富且多方面的搜索意图,这些意图仅通过基于图像的度量难以完全捕捉。近期的研究利用文本指令让用户能够更自由地表达其搜索意图。然而,这些研究主要集中在视觉上相似的图像对和/或可以通过少量预定义关系描述的图像对上。本文的核心论点是,文本指令可以实现超越视觉相似性的更丰富的关系检索。为了证明这一点,我们引入了MagicLens,一系列支持开放式指令的自监督图像检索模型。MagicLens 基于一个关键的新见解:自然出现在同一网页上的图像对包含广泛隐含的关系(例如,“内部视图”),我们可以通过基础模型合成指令来使这些隐含关系显式化。MagicLens 在从网络中挖掘出的 3670 万组(查询图像、指令、目标图像)三元组上进行训练,这些三元组具有丰富的语义关系。在八个不同图像检索任务的基准测试中,MagicLens 的性能与先前的最佳方法相当甚至更好,同时在显著减小模型规模的情况下保持了高参数效率。此外,对 140 万张未见过的图像进行的人工分析进一步展示了 MagicLens 支持的搜索意图多样性。代码和模型已在 https://open-vision-language.github.io/MagicLens/ 公开发布。

代码仓库

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onMagicLens (CLIP B)
mAP@10: 23.8
zero-shot-composed-image-retrieval-zs-cir-onMagicLens (CoCa B)
mAP@10: 32.0
zero-shot-composed-image-retrieval-zs-cir-onMagicLens (CoCa L)
mAP@10: 35.4
zero-shot-composed-image-retrieval-zs-cir-onMagicLens (CLIP L)
mAP@10: 30.8
zero-shot-composed-image-retrieval-zs-cir-on-1MagicLens (CLIP B)
R@5: 58.0
zero-shot-composed-image-retrieval-zs-cir-on-1MagicLens (CoCa B)
R@5: 64.0
zero-shot-composed-image-retrieval-zs-cir-on-1MagicLens (CoCa L)
R@1: 33.3
R@10: 77.9
R@5: 67.0
R@50: 94.4
zero-shot-composed-image-retrieval-zs-cir-on-1MagicLens (CLIP L)
R@1: 30.1
R@10: 74.4
R@5: 61.7
R@50: 92.6
zero-shot-composed-image-retrieval-zs-cir-on-2MagicLens (CoCa B)
(Recall@10+Recall@50)/2: 45.3
zero-shot-composed-image-retrieval-zs-cir-on-2MagicLens (CoCa L)
(Recall@10+Recall@50)/2: 48.1
R@10: 38
R@50: 58.2
zero-shot-composed-image-retrieval-zs-cir-on-2MagicLens (CLIP L)
(Recall@10+Recall@50)/2: 41.6
R@10: 30.7
R@50: 52.5
zero-shot-composed-image-retrieval-zs-cir-on-2MagicLens (CLIP B)
(Recall@10+Recall@50)/2: 36.85
zero-shot-composed-image-retrieval-zs-cir-on-6MagicLens (CLIP L)
(Recall@10+Recall@50)/2: 48
zero-shot-composed-image-retrieval-zs-cir-on-6MagicLens (CLIP B)
(Recall@10+Recall@50)/2: 36.4
zero-shot-composed-image-retrieval-zs-cir-on-6MagicLens (CoCa B)
(Recall@10+Recall@50)/2: 51.75
zero-shot-composed-image-retrieval-zs-cir-on-6MagicLens (CoCa L)
(Recall@10+Recall@50)/2: 52.95

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MagicLens:基于开放指令的自监督图像检索 | 论文 | HyperAI超神经