4 个月前

PosSAM:全景开放词汇分割一切

PosSAM:全景开放词汇分割一切

摘要

在本文中,我们介绍了一种开放词汇全景分割模型,该模型在一个端到端框架中有效地整合了Segment Anything Model(SAM)和视觉-语言CLIP模型的优势。尽管SAM在生成空间感知掩模方面表现出色,但其解码器在识别物体类别信息方面存在不足,并且在没有额外指导的情况下容易过度分割。现有的方法通过多阶段技术和使用单独的模型生成类别感知提示(如边界框或分割掩模)来解决这一限制。我们提出的方法PosSAM是一种端到端模型,它利用SAM的空间丰富特征生成实例感知掩模,并借助CLIP的语义区分特征进行有效的实例分类。具体而言,我们针对SAM的局限性,提出了一种新颖的局部判别池化(Local Discriminative Pooling, LDP)模块,该模块结合了类别无关的SAM特征和类别感知的CLIP特征,实现了无偏见的开放词汇分类。此外,我们引入了一种掩模感知选择性集成(Mask-Aware Selective Ensembling, MASE)算法,在推理过程中自适应地提升生成掩模的质量并增强开放词汇分类的性能。我们进行了广泛的实验以展示我们的方法在多个数据集上的强大泛化能力,取得了显著优于现有最佳开放词汇全景分割方法的表现。在COCO到ADE20K和ADE20K到COCO两种设置下,PosSAM分别以2.4 PQ和4.6 PQ的大优势超越了之前的最先进方法。项目网站:https://vibashan.github.io/possam-web/。

代码仓库

Vibashan/PosSAM
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PosSAM:全景开放词汇分割一切 | 论文 | HyperAI超神经