3 个月前

视觉与文本先验引导的掩码组装用于少样本分割及更广泛应用

视觉与文本先验引导的掩码组装用于少样本分割及更广泛应用

摘要

少样本分割(Few-shot Segmentation, FSS)旨在仅使用少量标注图像即可对新类别进行分割。由于CLIP在视觉与文本信息对齐方面的优势,将其融入FSS模型可有效提升模型的泛化能力。然而,即便采用CLIP模型,现有的基于CLIP的FSS方法仍存在对基础类别(base classes)产生偏差预测的问题,其根源在于类别相关特征层面的交互作用。为解决这一问题,本文提出一种视觉与文本先验引导的掩码组装网络(Prior Guided Mask Assemble Network, PGMA-Net)。该方法通过类无关(class-agnostic)的掩码组装机制缓解类别偏差,并借助亲和性(affinity)机制将多种任务统一建模为一致的框架。具体而言,首先将与类别相关的文本与视觉特征转换为类无关的先验表示,以概率图的形式表达。随后,引入一个先验引导的掩码组装模块(Prior-Guided Mask Assemble Module, PGMAM),该模块包含多个通用组装单元(General Assemble Units, GAUs),能够灵活支持多种即插即用的交互模式,包括视觉-文本交互、图像间与图像内交互、无需训练的交互以及高阶交互等。最后,为保障模型的类无关能力,提出一种具有通道丢弃机制的分层解码器(Hierarchical Decoder with Channel-Drop Mechanism, HDCDM),可灵活利用组装后的掩码与低层特征,且完全不依赖任何类别特定信息。实验结果表明,所提出的PGMA-Net在少样本分割任务中达到了新的最先进性能:在1-shot设置下,于PASCAL-5^i数据集上取得77.6的mIoU,在COCO-20^i数据集上达到59.4的mIoU。此外,无需额外微调,该方法还可直接应用于边界框级别少样本分割、跨域少样本分割、协同分割(co-segmentation)以及零样本分割(Zero-shot Segmentation, ZSS)等任务,展现出强大的泛化能力,从而构建了一个统一的任意样本分割(any-shot segmentation)框架。

基准测试

基准方法指标
few-shot-semantic-segmentation-on-coco-20i-1PGMA-Net (ResNet-101)
FB-IoU: 78.5
Mean IoU: 59.4
few-shot-semantic-segmentation-on-coco-20i-1PGMA-Net (ResNet-50)
FB-IoU: 75.8
Mean IoU: 54.3
few-shot-semantic-segmentation-on-coco-20i-5PGMA-Net (ResNet-50)
FB-IoU: 76.7
Mean IoU: 57.1
few-shot-semantic-segmentation-on-coco-20i-5PGMA-Net (ResNet-101)
FB-IoU: 79.4
Mean IoU: 61.8
few-shot-semantic-segmentation-on-pascal-5i-1PGMA-Net (ResNet-50)
FB-IoU: 83.5
Mean IoU: 74.1
few-shot-semantic-segmentation-on-pascal-5i-1PGMA-Net (ResNet-101)
FB-IoU: 86.2
Mean IoU: 77.6
few-shot-semantic-segmentation-on-pascal-5i-1PGMA-Net (ViT-B/16)
FB-IoU: 82.1
Mean IoU: 74.1
few-shot-semantic-segmentation-on-pascal-5i-5PGMA-Net (ResNet-101)
FB-IoU: 86.9
Mean IoU: 78.6
few-shot-semantic-segmentation-on-pascal-5i-5PGMA-Net (ViT-B/16)
FB-IoU: 82.5
Mean IoU: 74.6
few-shot-semantic-segmentation-on-pascal-5i-5PGMA-Net (ResNet-50)
FB-IoU: 84.2
Mean IoU: 75.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉与文本先验引导的掩码组装用于少样本分割及更广泛应用 | 论文 | HyperAI超神经