3 个月前

CLIP 也是一种高效的分割器：一种文本驱动的弱监督语义分割方法

Yuqi Lin Minghao Chen Wenxiao Wang Boxi Wu Ke Li Binbin Lin Haifeng Liu Xiaofei He

摘要

弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）在仅使用图像级别标签的情况下是一项极具挑战性的任务。主流方法通常采用多阶段框架，但存在训练成本高昂的问题。本文探索了对比语言-图像预训练模型（CLIP）在仅依赖图像级标签且无需额外微调的情况下，实现不同类别定位的潜力。为从CLIP高效生成高质量的分割掩码，我们提出了一种新颖的WSSS框架——CLIP-ES。该框架针对CLIP模型特性，对WSSS的三个核心阶段进行了针对性优化设计：1）我们将Softmax函数引入GradCAM，并利用CLIP的零样本（zero-shot）能力，有效抑制非目标类别与背景带来的混淆。同时，为充分挖掘CLIP的潜力，我们重新审视了WSSS场景下的文本输入策略，提出了两种基于文本驱动的优化方法：基于锐度的提示选择（sharpness-based prompt selection）与同义词融合（synonym fusion）。2）为简化类激活图（CAM）精炼阶段的复杂性，我们提出一种基于CLIP-ViT固有多头自注意力机制（Multi-Head Self-Attention, MHSA）的实时类感知注意力亲和模块（Class-Aware Attention-based Affinity, CAA），显著提升计算效率与定位精度。3）在使用CLIP生成的伪掩码训练最终分割模型时，我们引入了一种置信度引导损失（Confidence-Guided Loss, CGL），聚焦于高置信度区域，进一步提升分割性能。实验结果表明，CLIP-ES在Pascal VOC 2012与MS COCO 2014数据集上均取得了当前最优（SOTA）的性能表现，且伪掩码生成阶段仅需先前方法10%的计算时间。代码已开源，地址为：https://github.com/linyq2117/CLIP-ES。

代码仓库

linyq2117/clip-es

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
weakly-supervised-semantic-segmentation-on	CLIP-ES(DeepLabV2-ResNet101)	Mean IoU: 73.8
weakly-supervised-semantic-segmentation-on-1	CLIP-ES(DeepLabV2-ResNet101)	Mean IoU: 73.9
weakly-supervised-semantic-segmentation-on-4	CLIP-ES(DeepLabV2-ResNet101)	mIoU: 45.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供