
摘要
随着在线内容中图像的广泛传播,过去十年间,基于语言引导的图像检索(Language-Guided Image Retrieval, LGIR)已成为研究热点,涵盖多种输入形式各异的子任务。尽管大规模多模态模型(Large Multimodal Models, LMMs)的发展显著推动了这些任务的进展,但现有方法通常将各个任务孤立处理,需为每项任务单独构建系统。这不仅增加了系统的复杂性与维护成本,还加剧了由语言歧义性和图像内容复杂性带来的挑战,导致检索系统难以提供准确可靠的结果。为此,我们提出 ImageScope,一种无需训练、基于三阶段架构的统一框架,通过集体推理实现 LGIR 任务的整合。其核心思想源于语言的组合性特征:将多样化的 LGIR 任务统一为一种通用的文本到图像检索流程,同时利用 LMM 的推理能力作为通用验证机制,对检索结果进行优化与精炼。具体而言,在第一阶段,我们通过链式思维(Chain-of-Thought, CoT)推理,在不同语义粒度层次上合成搜索意图,从而提升框架的鲁棒性;在第二与第三阶段,分别通过局部谓词命题验证与全局成对评估,对检索结果进行反思与校验。在六个 LGIR 数据集上的实验表明,ImageScope 在性能上优于多个先进基线方法。全面的评估与消融研究进一步验证了所提出设计的有效性与合理性。
代码仓库
pengfei-luo/ImageScope
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chat-based-image-retrieval-on-visdial | ImageScope (CLIP-ViT-L/14) | Hits@10 on 10 Round: 79.89 |
| zero-shot-composed-image-retrieval-zs-cir-on | ImageScope (CLIP-ViT-L/14) | MAP@5: 28.36 mAP@10: 28.36 mAP@25: 30.81 mAP@50: 31.88 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | ImageScope (CLIP-ViT-L/14) | R@1: 39.37 R@10: 78.05 R@5: 67.54 R@50: 92.94 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | ImageScope (CLIP-ViT-L/14) | R@10: 31.36 R@50: 50.78 |