3 个月前

ImageScope:通过大模型集体推理统一语言引导的图像检索

ImageScope:通过大模型集体推理统一语言引导的图像检索

摘要

随着在线内容中图像的广泛传播,过去十年间,基于语言引导的图像检索(Language-Guided Image Retrieval, LGIR)已成为研究热点,涵盖多种输入形式各异的子任务。尽管大规模多模态模型(Large Multimodal Models, LMMs)的发展显著推动了这些任务的进展,但现有方法通常将各个任务孤立处理,需为每项任务单独构建系统。这不仅增加了系统的复杂性与维护成本,还加剧了由语言歧义性和图像内容复杂性带来的挑战,导致检索系统难以提供准确可靠的结果。为此,我们提出 ImageScope,一种无需训练、基于三阶段架构的统一框架,通过集体推理实现 LGIR 任务的整合。其核心思想源于语言的组合性特征:将多样化的 LGIR 任务统一为一种通用的文本到图像检索流程,同时利用 LMM 的推理能力作为通用验证机制,对检索结果进行优化与精炼。具体而言,在第一阶段,我们通过链式思维(Chain-of-Thought, CoT)推理,在不同语义粒度层次上合成搜索意图,从而提升框架的鲁棒性;在第二与第三阶段,分别通过局部谓词命题验证与全局成对评估,对检索结果进行反思与校验。在六个 LGIR 数据集上的实验表明,ImageScope 在性能上优于多个先进基线方法。全面的评估与消融研究进一步验证了所提出设计的有效性与合理性。

代码仓库

pengfei-luo/ImageScope
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
chat-based-image-retrieval-on-visdialImageScope (CLIP-ViT-L/14)
Hits@10 on 10 Round: 79.89
zero-shot-composed-image-retrieval-zs-cir-onImageScope (CLIP-ViT-L/14)
MAP@5: 28.36
mAP@10: 28.36
mAP@25: 30.81
mAP@50: 31.88
zero-shot-composed-image-retrieval-zs-cir-on-1ImageScope (CLIP-ViT-L/14)
R@1: 39.37
R@10: 78.05
R@5: 67.54
R@50: 92.94
zero-shot-composed-image-retrieval-zs-cir-on-2ImageScope (CLIP-ViT-L/14)
R@10: 31.36
R@50: 50.78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ImageScope:通过大模型集体推理统一语言引导的图像检索 | 论文 | HyperAI超神经