3 个月前

FreeSeg:基于可解释对比语言-图像预训练的自由掩码用于语义分割

FreeSeg:基于可解释对比语言-图像预训练的自由掩码用于语义分割

摘要

全监督语义分割依赖于密集的掩码标注,这在封闭世界设定下需要高昂的标注成本。本文提出一种无需任何像素级标注、仅利用自然语言作为监督信号的开放世界语义分割方法。我们将其框架命名为FreeSeg,其核心思想是:从预训练模型的原始特征图中直接获取自由可用的掩码。与零样本或开放集分割方法相比,FreeSeg完全无需任何标注掩码,且能够广泛预测超出类别无关无监督分割范畴的语义类别。具体而言,FreeSeg通过可解释的对比语言-图像预训练(Interpretable Contrastive Language-Image Pretraining, ICLIP)所生成的图像-文本相似度图(Image-Text Similarity Map, ITSM)来获取免费掩码。本文的核心改进包括:针对密集ICLIP特征的平滑最小池化(smoothed min pooling),以及用于分割任务的局部标签(partial label)与像素级策略(pixel strategy)。此外,FreeSeg结构设计极为简洁,无需复杂的分组、聚类或检索机制。在保持极简设计的同时,FreeSeg在性能上显著超越此前的最先进方法。例如,在相同实验设置下,其在PASCAL VOC数据集上的mIoU指标提升高达13.4%。

基准测试

基准方法指标
zero-shot-semantic-segmentation-on-coco-stuffFreeSeg
Inductive Setting hIoU: -
Transductive Setting hIoU: 45.3
zero-shot-semantic-segmentation-on-pascal-vocFreeSeg
Inductive Setting hIoU: -
Transductive Setting hIoU: 86.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FreeSeg:基于可解释对比语言-图像预训练的自由掩码用于语义分割 | 论文 | HyperAI超神经