3 个月前

利用隐式正例进行无监督语义分割

利用隐式正例进行无监督语义分割

摘要

像素级标注的人力需求急剧增长,推动了无监督语义分割技术的兴起。尽管近期采用视觉Transformer(ViT)主干网络的方法展现出卓越的性能,但在任务特定的训练指导以及局部语义一致性方面仍存在不足。为解决上述问题,我们通过挖掘隐式正样本(hidden positives)来实施对比学习,以学习丰富的语义关系并保障局部区域内的语义一致性。具体而言,我们基于固定预训练主干网络和正在训练的分割头所定义的特征相似性,分别发现每组锚点(anchor)对应的两类全局隐式正样本:一类为与任务无关的隐式正样本,另一类为任务相关的隐式正样本。通过逐步增强后一类正样本的贡献,促使模型逐步捕捉任务特定的语义特征。此外,我们提出一种梯度传播策略,以学习相邻图像块之间的语义一致性。该策略基于一个基本假设:相邻图像块具有高度相似的语义。具体实现中,我们将损失函数按预设的相似度评分,以比例方式传播至局部隐式正样本——即语义上相近的邻近图像块。通过上述训练机制,我们所提出的模型在COCO-Stuff、Cityscapes和Potsdam-3三个基准数据集上均取得了新的最先进(SOTA)性能。相关代码已开源,地址为:https://github.com/hynnsk/HP。

代码仓库

hynnsk/hp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-semantic-segmentation-onHP
Accuracy: 80.1
mIoU: 18.4
unsupervised-semantic-segmentation-on-coco-7HP (ViT-S/8)
Accuracy: 57.2
mIoU: 24.6
unsupervised-semantic-segmentation-on-potsdam-1HP
Accuracy: 82.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用隐式正例进行无监督语义分割 | 论文 | HyperAI超神经