3 个月前

TransFGU:一种自顶向下的细粒度无监督语义分割方法

TransFGU:一种自顶向下的细粒度无监督语义分割方法

摘要

无监督语义分割旨在无需人工标注的情况下,从低层视觉特征中获取高层语义表征。现有大多数方法采用自下而上的策略,基于像素的视觉线索或预设规则将其聚类为区域。然而,在包含多个物体且部分物体具有相似视觉外观的复杂场景中,这类自下而上的方法难以生成细粒度的语义分割结果。相比之下,本文提出首个面向极端复杂场景的自上而下式无监督语义分割框架,实现精细化分割。具体而言,我们首先通过自监督学习方式,从大规模视觉数据中提取丰富的高层结构化语义概念信息,并将其作为先验知识,用于发现目标数据集中潜在的语义类别;其次,利用所发现的高层语义类别,通过计算相对于特定语义表征的类别激活图(Class Activation Map, CAM),将高层语义映射至底层像素特征;最后,生成的CAM作为伪标签,用于训练分割模块并输出最终的语义分割结果。在多个语义分割基准上的实验结果表明,所提出的自上而下无监督分割方法在不同语义粒度下均对以物体为中心(object-centric)和以场景为中心(scene-centric)的数据集具有良好的鲁棒性,且显著优于当前所有先进的自下而上方法。代码已开源,地址为:\url{https://github.com/damo-cv/TransFGU}。

代码仓库

damo-cv/transfgu
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-semantic-segmentation-on-coco-6TransFGU (ViT-S/8)
Pixel Accuracy: 34.32
mIoU: 11.93
unsupervised-semantic-segmentation-on-coco-8TransFGU (ViT-S/8)
Pixel Accuracy: 64.3
mIoU: 12.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransFGU:一种自顶向下的细粒度无监督语义分割方法 | 论文 | HyperAI超神经