3 个月前

SegCLIP:基于可学习中心的图像块聚合用于开放词汇语义分割

SegCLIP:基于可学习中心的图像块聚合用于开放词汇语义分割

摘要

近期,对比语言-图像预训练模型(如CLIP)在各类下游任务中展现出令人瞩目的性能。通过在大规模图文数据上进行学习,预训练模型能够捕捉图像中丰富的视觉概念。然而,如何将所学得的视觉知识迁移到开放词汇语义分割任务中,仍处于探索阶段。本文提出一种基于CLIP的新型模型——SegCLIP,用于实现无需标注信息的开放词汇语义分割。SegCLIP以视觉Transformer(ViT)为基础架构,其核心思想是通过在图文对上进行训练,利用可学习的中心点动态聚合图像块至相应的语义区域,从而捕捉潜在的语义分组。该聚合操作能够自适应地识别并组织具有语义一致性的图像区域,进而生成最终的分割结果。为进一步增强视觉表征能力,我们还引入了一种针对掩码图像块的重建损失,以及一种基于超像素与伪标签的KL散度损失。实验结果表明,与现有基线方法相比,本模型在PASCAL VOC 2012(mIoU提升0.3%)、PASCAL Context(mIoU提升2.3%)和COCO(mIoU提升2.2%)数据集上均取得了相当或更优的分割精度。相关代码已开源,地址为:https://github.com/ArrowLuo/SegCLIP。

代码仓库

arrowluo/segclip
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SegCLIP:基于可学习中心的图像块聚合用于开放词汇语义分割 | 论文 | HyperAI超神经