
摘要
少样本分割(Few-shot Segmentation, FSS)旨在仅使用少量标注图像即可对新类别进行分割。由于CLIP在视觉与文本信息对齐方面的优势,将其融入FSS模型可有效提升模型的泛化能力。然而,即便采用CLIP模型,现有的基于CLIP的FSS方法仍存在对基础类别(base classes)产生偏差预测的问题,其根源在于类别相关特征层面的交互作用。为解决这一问题,本文提出一种视觉与文本先验引导的掩码组装网络(Prior Guided Mask Assemble Network, PGMA-Net)。该方法通过类无关(class-agnostic)的掩码组装机制缓解类别偏差,并借助亲和性(affinity)机制将多种任务统一建模为一致的框架。具体而言,首先将与类别相关的文本与视觉特征转换为类无关的先验表示,以概率图的形式表达。随后,引入一个先验引导的掩码组装模块(Prior-Guided Mask Assemble Module, PGMAM),该模块包含多个通用组装单元(General Assemble Units, GAUs),能够灵活支持多种即插即用的交互模式,包括视觉-文本交互、图像间与图像内交互、无需训练的交互以及高阶交互等。最后,为保障模型的类无关能力,提出一种具有通道丢弃机制的分层解码器(Hierarchical Decoder with Channel-Drop Mechanism, HDCDM),可灵活利用组装后的掩码与低层特征,且完全不依赖任何类别特定信息。实验结果表明,所提出的PGMA-Net在少样本分割任务中达到了新的最先进性能:在1-shot设置下,于PASCAL-5^i数据集上取得77.6的mIoU,在COCO-20^i数据集上达到59.4的mIoU。此外,无需额外微调,该方法还可直接应用于边界框级别少样本分割、跨域少样本分割、协同分割(co-segmentation)以及零样本分割(Zero-shot Segmentation, ZSS)等任务,展现出强大的泛化能力,从而构建了一个统一的任意样本分割(any-shot segmentation)框架。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-semantic-segmentation-on-coco-20i-1 | PGMA-Net (ResNet-101) | FB-IoU: 78.5 Mean IoU: 59.4 |
| few-shot-semantic-segmentation-on-coco-20i-1 | PGMA-Net (ResNet-50) | FB-IoU: 75.8 Mean IoU: 54.3 |
| few-shot-semantic-segmentation-on-coco-20i-5 | PGMA-Net (ResNet-50) | FB-IoU: 76.7 Mean IoU: 57.1 |
| few-shot-semantic-segmentation-on-coco-20i-5 | PGMA-Net (ResNet-101) | FB-IoU: 79.4 Mean IoU: 61.8 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | PGMA-Net (ResNet-50) | FB-IoU: 83.5 Mean IoU: 74.1 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | PGMA-Net (ResNet-101) | FB-IoU: 86.2 Mean IoU: 77.6 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | PGMA-Net (ViT-B/16) | FB-IoU: 82.1 Mean IoU: 74.1 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | PGMA-Net (ResNet-101) | FB-IoU: 86.9 Mean IoU: 78.6 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | PGMA-Net (ViT-B/16) | FB-IoU: 82.5 Mean IoU: 74.6 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | PGMA-Net (ResNet-50) | FB-IoU: 84.2 Mean IoU: 75.2 |