3 个月前

检索前推理:一种无需训练的零样本组合图像检索的一阶段反思式思维链

检索前推理:一种无需训练的零样本组合图像检索的一阶段反思式思维链

摘要

组合图像检索(Composed Image Retrieval, CIR)旨在根据参考图像并结合用户指定的文本修改,检索出与目标图像高度相似的结果,从而更精准地捕捉用户意图。现有的无训练零样本CIR(Training-Free Zero-Shot CIR, ZS-CIR)方法通常采用两阶段流程:首先为参考图像生成描述文本,再利用大语言模型进行推理以获取目标图像的描述。然而,这类方法普遍存在关键视觉细节丢失和推理能力受限的问题,导致检索性能不理想。为解决上述挑战,本文提出一种新颖的无训练单阶段方法——面向零样本CIR的单阶段反思式思维链推理(One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR, OSrCIR)。该方法通过多模态大语言模型在单阶段推理过程中有效保留关键视觉信息,避免了传统两阶段方法中的信息损失。此外,提出的反思式思维链(Reflective Chain-of-Thought)框架通过将操作意图与参考图像的上下文线索对齐,进一步提升了推理的可解释性与准确性。在多个任务上,OSrCIR相较于现有无训练方法实现了1.80%至6.44%的性能提升,刷新了零样本CIR的最新技术水平,显著增强了其在视觉-语言应用中的实用价值。相关代码将开源,地址为:https://github.com/Pter61/osrcir2024/。

代码仓库

Pter61/osrcir
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onOSrCIR (CLIP L/14)
mAP@10: 25.33
zero-shot-composed-image-retrieval-zs-cir-onOSrCIR (CLIP G/14)
mAP@10: 31.14
zero-shot-composed-image-retrieval-zs-cir-onOSrCIR (CLIP B/32)
mAP@10: 19.17
zero-shot-composed-image-retrieval-zs-cir-on-1OSrCIR (CLIP L/14)
R@5: 57.68
zero-shot-composed-image-retrieval-zs-cir-on-1OSrCIR (CLIP G/14)
R@5: 67.25
zero-shot-composed-image-retrieval-zs-cir-on-1OSrCIR (CLIP B/32)
R@5: 54.54
zero-shot-composed-image-retrieval-zs-cir-on-11OSrCIR (CLIP B/32)
A-R@1: 17.4
zero-shot-composed-image-retrieval-zs-cir-on-11OSrCIR (CLIP L/14)
A-R@1: 17.9
zero-shot-composed-image-retrieval-zs-cir-on-11OSrCIR (CLIP G/14)
A-R@1: 19.6
zero-shot-composed-image-retrieval-zs-cir-on-2OSrCIR (CLIP B/32)
(Recall@10+Recall@50)/2: 42.87
zero-shot-composed-image-retrieval-zs-cir-on-2OSrCIR (CLIP G/14)
(Recall@10+Recall@50)/2: 47.34
zero-shot-composed-image-retrieval-zs-cir-on-2OSrCIR (CLIP L/14)
(Recall@10+Recall@50)/2: 42.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
检索前推理:一种无需训练的零样本组合图像检索的一阶段反思式思维链 | 论文 | HyperAI超神经