
摘要
我们致力于解决开放世界的语义分割问题,该问题旨在学习对图像中的任意视觉概念进行分割,仅使用图像-文本对而无需密集注释。现有的开放世界分割方法通过利用对比学习(Contrastive Learning, CL)来学习多样化的视觉概念,并将所学的图像级理解转移到分割任务上,已经取得了令人印象深刻的进展。然而,这些基于CL的方法在训练和测试之间存在差异,因为它们在训练过程中仅考虑图像-文本对齐,而在测试时则需要区域-文本对齐。本文提出了一种新颖的基于文本的对比学习(Text-grounded Contrastive Learning, TCL)框架,使模型能够直接学习区域-文本对齐。我们的方法为给定的文本生成一个分割掩码,从掩码区域中提取基于文本的图像嵌入,并通过TCL将其与文本嵌入对齐。通过直接学习区域-文本对齐,我们的框架鼓励模型直接提升生成的分割掩码的质量。此外,为了进行严格且公平的比较,我们提出了一个统一的评估协议,涵盖了广泛使用的8个语义分割数据集。TCL在所有数据集中均以较大优势实现了最先进的零样本分割性能。代码可在https://github.com/kakaobrain/tcl 获取。
代码仓库
kakaobrain/tcl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| open-vocabulary-semantic-segmentation-on-1 | TCL | mIoU: 33.9 |
| open-vocabulary-semantic-segmentation-on-5 | TCL | mIoU: 83.2 |
| semantic-segmentation-on-cc3m-tagmask | TCL | mIoU: 60.4 |
| unsupervised-semantic-segmentation-with-10 | TCL | mIoU: 31.6 |
| unsupervised-semantic-segmentation-with-11 | TCL | mIoU: 55.0 |
| unsupervised-semantic-segmentation-with-3 | TCL | mIoU: 24.0 |
| unsupervised-semantic-segmentation-with-4 | TCL | Mean IoU (val): 17.1 |
| unsupervised-semantic-segmentation-with-7 | TCL | mIoU: 83.2 |
| unsupervised-semantic-segmentation-with-8 | TCL | mIoU: 33.9 |
| unsupervised-semantic-segmentation-with-9 | TCL | mIoU: 22.4 |