8 个月前

摘要

组合图像检索（Composed Image Retrieval, CIR）旨在根据参考图像和条件文本检索目标图像，从而实现可控的图像搜索。现有的主流零样本（Zero-Shot, ZS）CIR方法通过将图像嵌入投影到文本标记嵌入空间中，形成一个组合查询来进行检索，从而绕过了昂贵的CIR三元组训练需求。然而，我们指出这些基于投影的CIR方法存在一个固有的局限性：文本编码器在原始预训练任务（文本 $\leftrightarrow$ 图像）和目标CIR任务（图像 + 文本 $\leftrightarrow$ 图像）之间存在任务差异，这可能会对CIR性能产生负面影响。为了减少这种差异，一种简单的解决方案是通过监督方式使用CIR三元组同时训练图像和文本编码器。相反，我们引入了一种高效的仅文本后处理框架——减少文本编码器任务差异（Reducing Task Discrepancy of Text Encoders, RTD），以补充基于投影的CIR方法。我们设计了一种新的目标锚定文本对比学习方法，旨在增强文本编码器在CIR中的能力。此外，我们提出了两项关键改进：(1) 基于难负例的精炼批量采样策略；(2) 精炼的连接方案，进一步缓解训练与推理之间的差异。将RTD集成到最先进的基于投影的方法中，在4个A100 GPU上只需额外23分钟的训练时间即可达到与资源密集型的最新合成CIR三元组方法相当甚至超越的性能（训练速度可提高至100倍）。我们的代码将在论文被接受后公开发布。