
摘要
少样本语义分割(Few-shot Semantic Segmentation, FSS)旨在对查询图像中未见类别进行分割,仅依赖少量标注样本(称为支持图像)作为先验信息。FSS的一个显著特征是查询图像与支持图像之间在空间上存在不一致性,例如纹理或外观差异。这种不一致性极大地挑战了现有方法的泛化能力,要求模型能够有效建模查询图像与支持样本之间的依赖关系。目前大多数方法将支持图像的特征抽象为原型向量(prototype vectors),并通过余弦相似度或特征拼接的方式实现与查询特征的交互。然而,这种简单的交互机制难以充分捕捉查询特征中的空间细节。为缓解这一局限,部分方法尝试通过Transformer的注意力机制,计算查询与支持特征之间所有像素级别的相关性,以利用完整的像素级支持信息。但这类方法在计算上存在显著负担,主要源于查询与支持特征所有像素之间点积注意力的高复杂度。针对上述问题,本文提出一种基于Transformer的简洁而高效的新框架——ProtoFormer,旨在充分捕捉查询特征中的空间细节。该方法将支持图像中目标类别的抽象原型视为查询(Query),而将查询图像的特征作为键(Key)和值(Value)嵌入,输入至Transformer解码器中。通过这种设计,模型能够更精准地建模空间上下文信息,并聚焦于查询图像中目标类别的语义特征。Transformer模块的输出可被理解为具有语义感知能力的动态卷积核,用于从增强后的查询特征中滤出最终的分割掩码。在PASCAL-$5^{i}$和COCO-$20^{i}$两个基准数据集上的大量实验表明,所提出的ProtoFormer显著超越现有最先进方法,实现了性能的显著提升。
代码仓库
leileicao/protoformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-semantic-segmentation-on-coco-20i-1 | ProtoFormer (ResNet-50) | FB-IoU: 69.6 Mean IoU: 45.7 |
| few-shot-semantic-segmentation-on-coco-20i-1 | ProtoFormer (ResNet-101) | FB-IoU: 70 Mean IoU: 47 |
| few-shot-semantic-segmentation-on-coco-20i-5 | ProtoFormer (ResNet-50) | FB-IoU: 73.3 Mean IoU: 53.4 |
| few-shot-semantic-segmentation-on-coco-20i-5 | ProtoFormer (ResNet-101) | FB-IoU: 74.6 Mean IoU: 54.7 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | ProtoFormer (ResNet-101) | FB-IoU: 72.6 Mean IoU: 63.2 |
| few-shot-semantic-segmentation-on-pascal-5i-1 | ProtoFormer (ResNet-50) | FB-IoU: 72.6 Mean IoU: 63.1 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | ProtoFormer (ResNet-50) | FB-IoU: 77.1 Mean IoU: 67.4 |
| few-shot-semantic-segmentation-on-pascal-5i-5 | ProtoFormer (ResNet-101) | FB-IoU: 76.3 Mean IoU: 67 |