
摘要
组合图像检索(Composed Image Retrieval, CIR)旨在根据参考图像和条件文本检索目标图像,从而实现可控的图像搜索。现有的主流零样本(Zero-Shot, ZS)CIR方法通过将图像嵌入投影到文本标记嵌入空间中,形成一个组合查询来进行检索,从而绕过了昂贵的CIR三元组训练需求。然而,我们指出这些基于投影的CIR方法存在一个固有的局限性:文本编码器在原始预训练任务(文本 $\leftrightarrow$ 图像)和目标CIR任务(图像 + 文本 $\leftrightarrow$ 图像)之间存在任务差异,这可能会对CIR性能产生负面影响。为了减少这种差异,一种简单的解决方案是通过监督方式使用CIR三元组同时训练图像和文本编码器。相反,我们引入了一种高效的仅文本后处理框架——减少文本编码器任务差异(Reducing Task Discrepancy of Text Encoders, RTD),以补充基于投影的CIR方法。我们设计了一种新的目标锚定文本对比学习方法,旨在增强文本编码器在CIR中的能力。此外,我们提出了两项关键改进:(1) 基于难负例的精炼批量采样策略;(2) 精炼的连接方案,进一步缓解训练与推理之间的差异。将RTD集成到最先进的基于投影的方法中,在4个A100 GPU上只需额外23分钟的训练时间即可达到与资源密集型的最新合成CIR三元组方法相当甚至超越的性能(训练速度可提高至100倍)。我们的代码将在论文被接受后公开发布。
代码仓库
navervision/lincir
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-composed-image-retrieval-zs-cir-on | RTD + LinCIR (CLIP L/14) | mAP@10: 18.11 |
| zero-shot-composed-image-retrieval-zs-cir-on | RTD + LinCIR (CLIP G/14) | mAP@10: 22.29 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | RTD + LinCIR (CLIP G/14) | R@5: 67.47 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | RTD + LinCIR (CLIP L/14) | R@5: 56.17 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | RTD + LinCIR (CLIP G/14) | (Recall@10+Recall@50)/2: 56.74 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | RTD + LinCIR (CLIP L/14) | (Recall@10+Recall@50)/2: 40.66 |