
摘要
开放词汇图像分割旨在根据任意文本描述将图像划分为语义区域。然而,复杂的视觉场景可以自然地分解为更简单的部分,并在多个粒度级别上进行抽象,这引入了固有的分割模糊性。与现有方法通常回避这种模糊性并将其视为外部因素不同,我们的方法积极地将包含不同语义级别的层次表示纳入学习过程。我们提出了一种解耦的文本-图像融合机制以及针对“物体”和“背景”的表征学习模块。此外,我们系统地研究了这些类别之间存在的文本特征和视觉特征的差异。我们所提出的模型命名为HIPIE(HIerarchical, oPen-vocabulary, and unIvErsal),在一个统一的框架内解决了层次化、开放词汇和通用分割任务。HIPIE在超过40个数据集上进行了基准测试,例如ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW和SeginW,在不同层次的图像理解任务中均取得了最先进的结果,包括语义级(如语义分割)、实例级(如全景/指代分割和目标检测)以及部件级(如部件/子部件分割)任务。我们的代码已发布在 https://github.com/berkeley-hipie/HIPIE。
代码仓库
berkeley-hipie/hipie
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-segmentation-on-pascal-panoptic-parts | HIPIE (ResNet-50) | mIoUPartS: 57.2 |
| image-segmentation-on-pascal-panoptic-parts | HIPIE (ViT-H) | mIoUPartS: 63.8 |
| panoptic-segmentation-on-coco-minival | HIPIE (ViT-H, single-scale) | PQ: 58.1 mIoU: 66.8 |
| referring-expression-segmentation-on-refcoco | HIPIE | Overall IoU: 82.8 |
| referring-expression-segmentation-on-refcoco-3 | HIPIE | Overall IoU: 73.9 |
| zero-shot-segmentation-on-segmentation-in-the | HIPIE | Mean AP: 41.6 |