4 个月前

利用主成分掩模提议提升无监督语义分割

利用主成分掩模提议提升无监督语义分割

摘要

无监督语义分割旨在通过识别图像语料库中的全局语义类别,自动将图像划分为具有语义意义的区域,而无需任何形式的注释。基于近期在自监督表示学习方面的进展,我们重点关注如何利用这些大型预训练模型来完成下游的无监督分割任务。我们提出了PriMaPs(Principal Mask Proposals)——根据图像的特征表示将其分解为具有语义意义的掩码。这使得我们可以通过使用随机期望最大化算法(PriMaPs-EM)将类原型拟合到PriMaPs,从而实现无监督语义分割。尽管其概念简单,但PriMaPs-EM在各种预训练骨干模型(包括DINO和DINOv2)以及不同数据集(如Cityscapes、COCO-Stuff和Potsdam-3)上均取得了有竞争力的结果。重要的是,当PriMaPs-EM正交应用于当前最先进的无监督语义分割流水线时,能够显著提升结果。代码可在https://github.com/visinf/primaps 获取。

代码仓库

visinf/primaps
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-semantic-segmentation-onPriMaPs-EM + STEGO (DINO ViT-B/8)
Accuracy: 78.6
mIoU: 21.6
unsupervised-semantic-segmentation-onPriMaPs-EM (DINO ViT-S/8)
Accuracy: 81.2
mIoU: 19.4
unsupervised-semantic-segmentation-on-coco-7PriMaPs+HP (DINO ViT-S/8)
Accuracy: 57.8
mIoU: 25.1
unsupervised-semantic-segmentation-on-coco-7PriMaPs+STEGO (DINO ViT-B/8)
Accuracy: 57.9
mIoU: 29.7
unsupervised-semantic-segmentation-on-potsdam-1PriMaPs-EM+HP (DINO ViT-B/8)
Accuracy: 83.3
mIoU: 71.0
unsupervised-semantic-segmentation-on-potsdam-1PriMaPs-EM (DINO ViT-B/8)
Accuracy: 80.5
mIoU: 67.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用主成分掩模提议提升无监督语义分割 | 论文 | HyperAI超神经