4 个月前

基于预训练视觉-语言模型的开放词汇语义分割基线方法

基于预训练视觉-语言模型的开放词汇语义分割基线方法

摘要

近日,通过视觉语言预训练实现的开放词汇图像分类展示了令人难以置信的成就,即模型可以在不看到该类别额外标注图像的情况下对任意类别进行分类。然而,如何使开放词汇识别在更广泛的视觉问题上表现良好仍不清楚。本文旨在通过构建一个基于现成预训练视觉语言模型(即CLIP)的方法来解决开放词汇语义分割问题。然而,语义分割和CLIP模型在不同的视觉粒度上运行,前者处理像素级信息,而后者则处理整幅图像。为了解决这一处理粒度上的差异,我们摒弃了流行的单阶段FCN框架,提出了一种两阶段语义分割框架:第一阶段提取可泛化的掩码提议,第二阶段利用基于图像的CLIP模型对第一阶段生成的掩码图像块进行开放词汇分类。实验结果表明,当仅在COCO Stuff数据集上训练并在其他数据集上评估时,该两阶段框架的表现优于FCN。此外,这一简单的框架在零样本语义分割方面也大幅超越了以往的最先进方法:在Pascal VOC 2012数据集上提高了29.5个hIoU,在COCO Stuff数据集上提高了8.9个hIoU。鉴于其简单性和强大的性能,我们希望这一框架能够作为基线促进未来的研究。代码已公开发布于 \url{https://github.com/MendelXu/zsseg.baseline}。

代码仓库

openrobotlab/ov_parts
jax
GitHub 中提及
mendelxu/zsseg.baseline
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-semantic-segmentation-onSimSeg
mIoU: 34.5
open-vocabulary-semantic-segmentation-on-1SimSeg
mIoU: 47.7
open-vocabulary-semantic-segmentation-on-2SimSeg
mIoU: 20.5
open-vocabulary-semantic-segmentation-on-3SimSeg
mIoU: 7
open-vocabulary-semantic-segmentation-on-5ZSSeg
hIoU: 77.5
open-vocabulary-semantic-segmentation-on-cocoZSSeg
HIoU: 37.8
zero-shot-semantic-segmentation-on-coco-stuffzsseg
Inductive Setting hIoU: 36.3
Transductive Setting hIoU: 41.5
zero-shot-semantic-segmentation-on-pascal-voczsseg
Inductive Setting hIoU: 77.5
Transductive Setting hIoU: 79.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于预训练视觉-语言模型的开放词汇语义分割基线方法 | 论文 | HyperAI超神经