4 个月前

从CLIP中提取自由密集标签

从CLIP中提取自由密集标签

摘要

对比语言-图像预训练(CLIP)在开放词汇零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别的分类和操作。本文旨在探讨CLIP在像素级密集预测,特别是语义分割方面的内在潜力。为此,我们通过最小的修改展示了MaskCLIP在缺乏注释和微调的情况下,在多个数据集上对开放概念产生了令人信服的分割结果。通过添加伪标签和自训练,MaskCLIP+大幅超越了现有的最佳传递式零样本语义分割方法,例如,在PASCAL VOC/PASCAL Context/COCO Stuff数据集上,未见过的类别的平均交并比(mIoU)从35.6/20.7/30.3提高到了86.1/66.7/54.7。我们还测试了MaskCLIP在输入损坏情况下的鲁棒性,并评估了其在区分细粒度对象和新颖概念方面的能力。我们的研究结果表明,MaskCLIP可以作为密集预测任务中的一种新的可靠监督来源,实现无需注释的分割。源代码可在https://github.com/chongzhou96/MaskCLIP 获取。

代码仓库

chongzhou96/maskclip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-panoptic-segmentation-onMaskCLIP
PQ: 15.1
semantic-segmentation-on-cc3m-tagmaskMaskCLIP
mIoU: 41.0
unsupervised-semantic-segmentation-with-1DenseCLIP
mIoU: 19.6
pixel accuracy: 32.2
unsupervised-semantic-segmentation-with-10MaskCLIP
mIoU: 20.6
unsupervised-semantic-segmentation-with-11MaskCLIP
mIoU: 29.3
unsupervised-semantic-segmentation-with-2DenseCLIP
mIoU: 15.3
pixel accuracy: 34.1
unsupervised-semantic-segmentation-with-3MaskCLIP
mIoU: 10.0
pixel accuracy: 35.9
unsupervised-semantic-segmentation-with-4MaskCLIP
Mean IoU (val): 9.8
unsupervised-semantic-segmentation-with-7MaskCLIP
mIoU: 74.9
unsupervised-semantic-segmentation-with-8MaskCLIP
mIoU: 26.4
unsupervised-semantic-segmentation-with-9MaskCLIP
mIoU: 16.4
zero-shot-segmentation-on-ade20k-trainingMaskCLIP
mIoU: 10.2
zero-shot-semantic-segmentation-on-coco-stuffMaskCLIP+
Inductive Setting hIoU: -
Transductive Setting hIoU: 45.0
zero-shot-semantic-segmentation-on-pascal-vocMaskCLIP+
Inductive Setting hIoU: -
Transductive Setting hIoU: 87.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从CLIP中提取自由密集标签 | 论文 | HyperAI超神经