3 个月前

ZegCLIP:面向零样本语义分割的CLIP适配

ZegCLIP:面向零样本语义分割的CLIP适配

摘要

近年来,CLIP通过两阶段框架被应用于像素级零样本学习任务。其基本思想是:首先生成与类别无关的区域建议(region proposals),随后将裁剪出的提议区域输入CLIP,利用其图像级别的零样本分类能力进行预测。尽管该方法有效,但其需要两个图像编码器——一个用于生成区域建议,另一个用于CLIP本身——导致整体流程复杂且计算开销较高。在本工作中,我们提出一种更简单高效的单阶段解决方案,直接将CLIP的零样本预测能力从图像级别扩展至像素级别。我们的研究始于一个基础的直接扩展方法:通过比较CLIP提取的文本嵌入与图像块(patch)嵌入之间的相似性,生成语义掩码。然而,这种范式容易对已见类别产生严重过拟合,难以泛化到未见类别。为解决这一问题,我们提出了三种简单但高效的改进设计,并发现这些设计能够显著保留CLIP固有的零样本能力,同时大幅提升像素级别的泛化性能。将这些改进整合后,我们构建了一个高效的零样本语义分割系统,命名为ZegCLIP。在三个公开基准数据集上的大量实验表明,ZegCLIP在“归纳”(inductive)与“直推”(transductive)两种零样本设置下均显著优于当前最先进的方法。此外,相较于两阶段方法,我们的单阶段ZegCLIP在推理阶段实现了约5倍的加速。相关代码已开源,地址为:https://github.com/ZiqinZhou66/ZegCLIP.git。

代码仓库

ZiqinZhou66/ZegCLIP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-semantic-segmentation-on-coco-stuffZegCLIP
Inductive Setting hIoU: 40.8
Transductive Setting hIoU: 48.5
zero-shot-semantic-segmentation-on-pascal-vocZegCLIP
Inductive Setting hIoU: 84.3
Transductive Setting hIoU: 91.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ZegCLIP:面向零样本语义分割的CLIP适配 | 论文 | HyperAI超神经