8 个月前

摘要

在本文中，我们介绍了一种开放词汇全景分割模型，该模型在一个端到端框架中有效地整合了Segment Anything Model（SAM）和视觉-语言CLIP模型的优势。尽管SAM在生成空间感知掩模方面表现出色，但其解码器在识别物体类别信息方面存在不足，并且在没有额外指导的情况下容易过度分割。现有的方法通过多阶段技术和使用单独的模型生成类别感知提示（如边界框或分割掩模）来解决这一限制。我们提出的方法PosSAM是一种端到端模型，它利用SAM的空间丰富特征生成实例感知掩模，并借助CLIP的语义区分特征进行有效的实例分类。具体而言，我们针对SAM的局限性，提出了一种新颖的局部判别池化（Local Discriminative Pooling, LDP）模块，该模块结合了类别无关的SAM特征和类别感知的CLIP特征，实现了无偏见的开放词汇分类。此外，我们引入了一种掩模感知选择性集成（Mask-Aware Selective Ensembling, MASE）算法，在推理过程中自适应地提升生成掩模的质量并增强开放词汇分类的性能。我们进行了广泛的实验以展示我们的方法在多个数据集上的强大泛化能力，取得了显著优于现有最佳开放词汇全景分割方法的表现。在COCO到ADE20K和ADE20K到COCO两种设置下，PosSAM分别以2.4 PQ和4.6 PQ的大优势超越了之前的最先进方法。项目网站：https://vibashan.github.io/possam-web/。

源 PDF