6 个月前

摘要

近年来，CLIP通过两阶段框架被应用于像素级零样本学习任务。其基本思想是：首先生成与类别无关的区域建议（region proposals），随后将裁剪出的提议区域输入CLIP，利用其图像级别的零样本分类能力进行预测。尽管该方法有效，但其需要两个图像编码器——一个用于生成区域建议，另一个用于CLIP本身——导致整体流程复杂且计算开销较高。在本工作中，我们提出一种更简单高效的单阶段解决方案，直接将CLIP的零样本预测能力从图像级别扩展至像素级别。我们的研究始于一个基础的直接扩展方法：通过比较CLIP提取的文本嵌入与图像块（patch）嵌入之间的相似性，生成语义掩码。然而，这种范式容易对已见类别产生严重过拟合，难以泛化到未见类别。为解决这一问题，我们提出了三种简单但高效的改进设计，并发现这些设计能够显著保留CLIP固有的零样本能力，同时大幅提升像素级别的泛化性能。将这些改进整合后，我们构建了一个高效的零样本语义分割系统，命名为ZegCLIP。在三个公开基准数据集上的大量实验表明，ZegCLIP在“归纳”（inductive）与“直推”（transductive）两种零样本设置下均显著优于当前最先进的方法。此外，相较于两阶段方法，我们的单阶段ZegCLIP在推理阶段实现了约5倍的加速。相关代码已开源，地址为：https://github.com/ZiqinZhou66/ZegCLIP.git。

源 PDF