8 个月前

摘要

本文研究了一个新兴的计算机视觉任务——开放词汇通用图像分割，该任务旨在在推理阶段对任意类别的基于文本描述进行语义/实例/全景分割（背景语义标注+前景实例分割）。我们首先通过直接采用预训练的CLIP模型而无需微调或蒸馏来构建基线方法。随后，我们开发了MaskCLIP，这是一种基于Transformer的方法，包含一个MaskCLIP视觉编码器，该编码器仅作为编码模块，能够无缝地将掩码标记与预训练的ViT CLIP模型结合，用于语义/实例分割和类别预测。MaskCLIP能够在MaskCLIP视觉编码器中高效且有效地利用预训练的部分/密集CLIP特征，从而避免耗时的学生-教师训练过程。在ADE20K和PASCAL数据集上，MaskCLIP在语义/实例/全景分割方面优于先前的方法。我们展示了在线自定义类别下MaskCLIP的定性示例。项目网站：https://maskclip.github.io。

源 PDF