8 个月前

摘要

大型预训练视觉-语言模型（如CLIP）在学习可跨多种下游任务迁移的表示方面展现出巨大潜力。与主要基于离散标签的传统表示学习不同，视觉-语言预训练通过在共同特征空间中对齐图像和文本，实现了通过提示进行零样本迁移至下游任务的能力，即分类权重可以从描述感兴趣类别的自然语言中合成。在这项工作中，我们指出在实际部署此类模型时面临的一个主要挑战是提示工程，这需要领域专业知识且极其耗时——因为即使是细微的措辞变化也可能对性能产生巨大影响。受近期自然语言处理（NLP）领域提示学习研究进展的启发，我们提出了一种名为上下文优化（Context Optimization, CoOp）的简单方法，专门用于适应CLIP类视觉-语言模型以进行下游图像识别。具体而言，CoOp 使用可学习向量来建模提示的上下文词汇，而整个预训练参数保持不变。为了应对不同的图像识别任务，我们提供了两种CoOp实现方式：统一上下文和类别特定上下文。通过在11个数据集上进行大量实验，我们证明了CoOp仅需一到两次示例即可显著优于手工设计的提示，并且随着示例数量的增加，其性能提升更加明显，例如，在16次示例的情况下，平均性能提升约为15%（最高可达45%以上）。尽管是一种基于学习的方法，但CoOp相比使用手工设计提示的零样本模型仍表现出卓越的领域泛化性能。

源 PDF