Yuanmin TangXiaoting QinJue ZhangJing YuGaopeng GouGang XiongQingwei LingSaravan RajmohanDongmei ZhangQi Wu

摘要
组合图像检索(Composed Image Retrieval, CIR)旨在根据参考图像并结合用户指定的文本修改,检索出与目标图像高度相似的结果,从而更精准地捕捉用户意图。现有的无训练零样本CIR(Training-Free Zero-Shot CIR, ZS-CIR)方法通常采用两阶段流程:首先为参考图像生成描述文本,再利用大语言模型进行推理以获取目标图像的描述。然而,这类方法普遍存在关键视觉细节丢失和推理能力受限的问题,导致检索性能不理想。为解决上述挑战,本文提出一种新颖的无训练单阶段方法——面向零样本CIR的单阶段反思式思维链推理(One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR, OSrCIR)。该方法通过多模态大语言模型在单阶段推理过程中有效保留关键视觉信息,避免了传统两阶段方法中的信息损失。此外,提出的反思式思维链(Reflective Chain-of-Thought)框架通过将操作意图与参考图像的上下文线索对齐,进一步提升了推理的可解释性与准确性。在多个任务上,OSrCIR相较于现有无训练方法实现了1.80%至6.44%的性能提升,刷新了零样本CIR的最新技术水平,显著增强了其在视觉-语言应用中的实用价值。相关代码将开源,地址为:https://github.com/Pter61/osrcir2024/。
代码仓库
Pter61/osrcir
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-composed-image-retrieval-zs-cir-on | OSrCIR (CLIP L/14) | mAP@10: 25.33 |
| zero-shot-composed-image-retrieval-zs-cir-on | OSrCIR (CLIP G/14) | mAP@10: 31.14 |
| zero-shot-composed-image-retrieval-zs-cir-on | OSrCIR (CLIP B/32) | mAP@10: 19.17 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | OSrCIR (CLIP L/14) | R@5: 57.68 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | OSrCIR (CLIP G/14) | R@5: 67.25 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | OSrCIR (CLIP B/32) | R@5: 54.54 |
| zero-shot-composed-image-retrieval-zs-cir-on-11 | OSrCIR (CLIP B/32) | A-R@1: 17.4 |
| zero-shot-composed-image-retrieval-zs-cir-on-11 | OSrCIR (CLIP L/14) | A-R@1: 17.9 |
| zero-shot-composed-image-retrieval-zs-cir-on-11 | OSrCIR (CLIP G/14) | A-R@1: 19.6 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | OSrCIR (CLIP B/32) | (Recall@10+Recall@50)/2: 42.87 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | OSrCIR (CLIP G/14) | (Recall@10+Recall@50)/2: 47.34 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | OSrCIR (CLIP L/14) | (Recall@10+Recall@50)/2: 42.82 |