3 个月前

原型作为查询用于少样本语义分割

原型作为查询用于少样本语义分割

摘要

少样本语义分割(Few-shot Semantic Segmentation, FSS)旨在对查询图像中未见类别进行分割,仅依赖少量标注样本(称为支持图像)作为先验信息。FSS的一个显著特征是查询图像与支持图像之间在空间上存在不一致性,例如纹理或外观差异。这种不一致性极大地挑战了现有方法的泛化能力,要求模型能够有效建模查询图像与支持样本之间的依赖关系。目前大多数方法将支持图像的特征抽象为原型向量(prototype vectors),并通过余弦相似度或特征拼接的方式实现与查询特征的交互。然而,这种简单的交互机制难以充分捕捉查询特征中的空间细节。为缓解这一局限,部分方法尝试通过Transformer的注意力机制,计算查询与支持特征之间所有像素级别的相关性,以利用完整的像素级支持信息。但这类方法在计算上存在显著负担,主要源于查询与支持特征所有像素之间点积注意力的高复杂度。针对上述问题,本文提出一种基于Transformer的简洁而高效的新框架——ProtoFormer,旨在充分捕捉查询特征中的空间细节。该方法将支持图像中目标类别的抽象原型视为查询(Query),而将查询图像的特征作为键(Key)和值(Value)嵌入,输入至Transformer解码器中。通过这种设计,模型能够更精准地建模空间上下文信息,并聚焦于查询图像中目标类别的语义特征。Transformer模块的输出可被理解为具有语义感知能力的动态卷积核,用于从增强后的查询特征中滤出最终的分割掩码。在PASCAL-$5^{i}$和COCO-$20^{i}$两个基准数据集上的大量实验表明,所提出的ProtoFormer显著超越现有最先进方法,实现了性能的显著提升。

代码仓库

leileicao/protoformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-semantic-segmentation-on-coco-20i-1ProtoFormer (ResNet-50)
FB-IoU: 69.6
Mean IoU: 45.7
few-shot-semantic-segmentation-on-coco-20i-1ProtoFormer (ResNet-101)
FB-IoU: 70
Mean IoU: 47
few-shot-semantic-segmentation-on-coco-20i-5ProtoFormer (ResNet-50)
FB-IoU: 73.3
Mean IoU: 53.4
few-shot-semantic-segmentation-on-coco-20i-5ProtoFormer (ResNet-101)
FB-IoU: 74.6
Mean IoU: 54.7
few-shot-semantic-segmentation-on-pascal-5i-1ProtoFormer (ResNet-101)
FB-IoU: 72.6
Mean IoU: 63.2
few-shot-semantic-segmentation-on-pascal-5i-1ProtoFormer (ResNet-50)
FB-IoU: 72.6
Mean IoU: 63.1
few-shot-semantic-segmentation-on-pascal-5i-5ProtoFormer (ResNet-50)
FB-IoU: 77.1
Mean IoU: 67.4
few-shot-semantic-segmentation-on-pascal-5i-5ProtoFormer (ResNet-101)
FB-IoU: 76.3
Mean IoU: 67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
原型作为查询用于少样本语义分割 | 论文 | HyperAI超神经