6 个月前

摘要

少样本分割（Few-shot Segmentation, FSS）旨在仅使用少量标注图像即可对新类别进行分割。由于CLIP在视觉与文本信息对齐方面的优势，将其融入FSS模型可有效提升模型的泛化能力。然而，即便采用CLIP模型，现有的基于CLIP的FSS方法仍存在对基础类别（base classes）产生偏差预测的问题，其根源在于类别相关特征层面的交互作用。为解决这一问题，本文提出一种视觉与文本先验引导的掩码组装网络（Prior Guided Mask Assemble Network, PGMA-Net）。该方法通过类无关（class-agnostic）的掩码组装机制缓解类别偏差，并借助亲和性（affinity）机制将多种任务统一建模为一致的框架。具体而言，首先将与类别相关的文本与视觉特征转换为类无关的先验表示，以概率图的形式表达。随后，引入一个先验引导的掩码组装模块（Prior-Guided Mask Assemble Module, PGMAM），该模块包含多个通用组装单元（General Assemble Units, GAUs），能够灵活支持多种即插即用的交互模式，包括视觉-文本交互、图像间与图像内交互、无需训练的交互以及高阶交互等。最后，为保障模型的类无关能力，提出一种具有通道丢弃机制的分层解码器（Hierarchical Decoder with Channel-Drop Mechanism, HDCDM），可灵活利用组装后的掩码与低层特征，且完全不依赖任何类别特定信息。实验结果表明，所提出的PGMA-Net在少样本分割任务中达到了新的最先进性能：在1-shot设置下，于PASCAL-5^i数据集上取得77.6的mIoU，在COCO-20^i数据集上达到59.4的mIoU。此外，无需额外微调，该方法还可直接应用于边界框级别少样本分割、跨域少样本分割、协同分割（co-segmentation）以及零样本分割（Zero-shot Segmentation, ZSS）等任务，展现出强大的泛化能力，从而构建了一个统一的任意样本分割（any-shot segmentation）框架。

源 PDF