8 个月前

摘要

对比图像-文本模型（如CLIP）构成了许多最先进系统的基石。尽管这些模型在识别常见的通用概念方面表现出色，但在处理罕见或甚至未出现在预训练数据集中的细粒度实体时仍面临挑战。因此，它们成功的关键因素之一是在预训练阶段使用大规模精心策划的预训练数据，以扩展其能够记忆的概念集合。在这项工作中，我们探索了一种替代方法，即不直接将细粒度知识编码到模型参数中，而是训练模型从外部存储器中检索这些知识。具体而言，我们提出为现有的视觉-文本模型配备一种能力，使其能够在推理时通过跨模态检索的信息来优化其嵌入向量，从而显著提升零样本预测性能。值得注意的是，我们展示了这一过程可以通过在冻结的CLIP之上添加一个轻量级的单层融合 Transformer 来实现。我们的实验验证了我们的检索增强对比（RECO）训练方法在多个具有挑战性的细粒度任务上大幅提升了CLIP的性能：例如，在Stanford Cars数据集上提高了10.9%，在CUB-2011数据集上提高了10.2%，在最近的OVEN基准测试中提高了7.3%，甚至在未见过的类别上超过了微调模型的表现。

源 PDF