3 个月前

MVP-SEG:面向开放词汇语义分割的多视角提示学习

MVP-SEG:面向开放词汇语义分割的多视角提示学习

摘要

CLIP(对比语言-图像预训练)在开放词汇表零样本图像级识别任务中已得到充分发展,然而其在像素级任务中的应用仍鲜有深入研究,多数方法直接采用CLIP特征而未进行针对性的适应性调整。本文首先论证了图像-像素级CLIP特征适应的必要性,随后提出多视角提示学习(Multi-View Prompt learning, MVP-SEG)作为一种有效方案,实现图像像素级特征适配,并解决开放词汇语义分割问题。具体而言,MVP-SEG通过我们提出的正交约束损失(Orthogonal Constraint Loss, OCLoss)精心学习多个提示(prompts),使得每个提示被监督以在CLIP特征中挖掘不同物体部位的信息,而所有提示协同生成的分割掩码进一步提升了整体分割性能。此外,MVP-SEG引入全局提示精炼机制(Global Prompt Refining, GPR),以进一步消除类别级别的分割噪声。实验结果表明,从已见类别中学得的多视角提示具有强大的泛化能力,能够有效迁移到未见类别;MVP-SEG+通过引入知识迁移阶段,在多个基准测试上显著优于先前方法。此外,定性分析也验证了MVP-SEG能够更精准地聚焦于不同局部区域,提升分割的细节表现。

基准测试

基准方法指标
zero-shot-semantic-segmentation-on-coco-stuffMVP-SEG+
Inductive Setting hIoU: -
Transductive Setting hIoU: 45.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MVP-SEG:面向开放词汇语义分割的多视角提示学习 | 论文 | HyperAI超神经