
摘要
我们提出了一种名为懒惰视觉定位(lazy visual grounding)的方法,该方法分为两个阶段:无监督对象掩码发现和对象定位,用于开放词汇表的语义分割。许多先前的研究将这一任务视为像素到文本的分类问题,而没有进行对象级别的理解,利用预训练的视觉-语言模型的图像到文本分类能力。我们认为,视觉对象在本质上是一个视觉任务,即使没有先验的文本信息也可以被区分开来。懒惰视觉定位首先通过迭代归一化切割(Normalized cuts)发现覆盖图像的对象掩码,然后以延迟交互的方式为这些已发现的对象分配文本标签。我们的模型无需额外训练,在五个公开数据集上表现出色:Pascal VOC、Pascal Context、COCO-object、COCO-stuff 和 ADE 20K。特别是,具有视觉吸引力的分割结果展示了模型精确定位对象的能力。论文主页:https://cvlab.postech.ac.kr/research/lazygrounding
代码仓库
dahyun-kang/lazygrounding
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| open-vocabulary-semantic-segmentation-on-1 | LaVG | mIoU: 34.7 |
| open-vocabulary-semantic-segmentation-on-2 | LaVG | mIoU: 15.8 |
| open-vocabulary-semantic-segmentation-on-5 | LaVG | mIoU: 82.5 |
| open-vocabulary-semantic-segmentation-on-coco | LaVG | mIoU: 23.2 |