
摘要
少样本语义分割模型通常由一个CNN编码器、一个CNN解码器以及一个简单的分类器(用于区分前景与背景像素)构成。现有大多数方法通过元学习对这三个模型组件进行联合优化,以实现对新类别的快速适应。然而,当仅提供单张支持集图像时,要有效调整这三个组件以适应新类别极具挑战性。为此,本文提出一种简化元学习任务的策略:仅对最简单的组件——分类器——进行元学习,而将编码器和解码器固定为预训练模型。我们假设,若在包含多样训练类别且标注充分的数据集上对现成的分割模型进行充分预训练,则编码器与解码器能够提取出具有强区分能力的通用特征,适用于任何未见类别,从而使得后续的元学习阶段变得不再必要。针对分类器的元学习,我们提出一种分类器权重变换器(Classifier Weight Transformer, CWT),该模块能够以归纳方式动态地将支持集训练得到的分类器权重适配到每一幅查询图像。在两个标准基准数据集上的大量实验表明,尽管方法结构简洁,本方法仍显著优于当前最先进的少样本语义分割技术,性能提升往往十分显著。代码已开源,地址为:https://github.com/zhiheLu/CWT-for-FSS。
代码仓库
zhiheLu/CWT-for-FSS
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-semantic-segmentation-on-coco-20i | CWT (ResNet-50) | Mean IoU: 59.5 |
| few-shot-semantic-segmentation-on-coco-20i-1 | CWT (ResNet-50) | Mean IoU: 32.9 |
| few-shot-semantic-segmentation-on-coco-20i-1 | CWT (ResNet-101) | Mean IoU: 32.4 |
| few-shot-semantic-segmentation-on-coco-20i-2 | CWT (ResNet-50) | Mean IoU: 66.5 |
| few-shot-semantic-segmentation-on-coco-20i-5 | CWT (ResNet-50) | Mean IoU: 41.3 |
| few-shot-semantic-segmentation-on-coco-20i-5 | CWT (ResNet-101) | Mean IoU: 42 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | CWT (ResNet-101) | Mean IoU: 58 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | CWT (ResNet-50) | Mean IoU: 56.4 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | CWT (ResNet-50) | Mean IoU: 63.7 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | CWT (ResNet-101) | Mean IoU: 64.7 |