摘要

开放词汇语义分割旨在根据文本描述将图像分割为语义区域，而这些语义类别在训练过程中可能从未出现过。近期的两阶段方法首先生成与类别无关的掩码提议，随后利用预训练的视觉-语言模型（如CLIP）对掩码区域进行分类。我们发现该范式的性能瓶颈在于预训练的CLIP模型，因为其在处理掩码图像时表现不佳。为解决这一问题，我们提出在一组掩码图像区域及其对应文本描述上对CLIP进行微调。我们通过挖掘现有的图像-标题数据集（如COCO Captions）来构建训练数据，利用CLIP将掩码图像区域与图像标题中的名词进行匹配。与具有固定类别、标注更为精确的手动标注分割标签（如COCO-Stuff）相比，我们发现尽管数据存在噪声，但其多样性有助于更好地保留CLIP的泛化能力。在微调整个模型的同时，我们提出一种称为“掩码提示调优”（mask prompt tuning）的方法，利用掩码图像中的“空白”区域进行优化。实验表明，该方法无需修改CLIP的任何权重即可带来显著性能提升，并能进一步增强完全微调模型的表现。特别地，在COCO上训练并在ADE20K-150上评估时，我们最优模型达到了29.6%的mIoU，较此前最先进方法提升了8.5个百分点。这是首次实现开放词汇通用模型在无需针对特定数据集进行适配的情况下，达到2017年监督专用模型的性能水平。

源 PDF