4 个月前

高质量掩模调优对开放词汇分割至关重要

高质量掩模调优对开放词汇分割至关重要

摘要

通过掩码生成器与视觉-语言模型(如对比语言-图像预训练模型(CLIP))之间的协同作用,开放词汇图像分割技术得到了显著提升。以往的方法主要集中在生成掩码的同时,在训练过程中对齐掩码特征与文本嵌入。在本文中,我们观察到依赖低质量的生成掩码会削弱区域表示中视觉与语言的对齐效果。这促使我们提出了一种新的微调框架,命名为MaskCLIP++,该框架使用真实掩码而非生成掩码来增强CLIP的掩码分类能力。由于带有掩码注释的图像分割数据集多样性有限,我们建议在微调过程中引入一致性对齐原则,以减轻对微调数据集的类别偏差。经过低成本的微调后,MaskCLIP++在多域数据集上的掩码分类性能显著提高。结合先前基于掩码的最佳开放词汇分割方法中的掩码生成器,我们在A-847、PC-459、A-150、PC-59和PAS-20数据集上分别实现了+1.7、+2.3、+2.1、+3.1和+0.3的mIoU性能提升。代码可在https://github.com/HVision-NKU/MaskCLIPpp 获取。

代码仓库

hvision-nku/maskclippp
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高质量掩模调优对开放词汇分割至关重要 | 论文 | HyperAI超神经