
摘要
开放词汇语义分割需要模型有效地将视觉表示与开放词汇语义标签相结合。尽管对比语言-图像预训练(CLIP)模型在从文本中识别视觉概念方面表现出色,但由于其定位能力有限,往往在分割连贯性上遇到困难。相比之下,视觉基础模型(VFMs)在获取空间一致的局部视觉表示方面表现出色,但在语义理解方面存在不足。本文介绍了一种创新框架——ProxyCLIP,旨在融合CLIP和VFMs的优势,以实现增强的开放词汇语义分割。ProxyCLIP利用来自VFMs的空间特征对应关系作为代理注意力机制来增强CLIP,从而继承了VFMs强大的局部一致性,并保持了CLIP出色的零样本迁移能力。我们提出了一种自适应归一化和掩码策略,以从不同类型的VFMs中获得代理注意力,实现跨模型的适应性。值得注意的是,作为一种无需训练的方法,ProxyCLIP显著提高了八个基准测试中的平均均值交并比(mIoU),从40.3提升至44.4,展示了其在弥合空间精度与语义丰富度之间差距方面的卓越效能,适用于开放词汇分割任务。
代码仓库
mc-lan/proxyclip
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-with-10 | ProxyCLIP | mIoU: 39.2 |
| unsupervised-semantic-segmentation-with-11 | ProxyCLIP | mIoU: 65.0 |
| unsupervised-semantic-segmentation-with-12 | ProxyCLIP | mIoU: 35.4 |
| unsupervised-semantic-segmentation-with-3 | ProxyCLIP | mIoU: 42.0 |
| unsupervised-semantic-segmentation-with-4 | ProxyCLIP | Mean IoU (val): 24.2 |
| unsupervised-semantic-segmentation-with-7 | ProxyCLIP | mIoU: 83.3 |
| unsupervised-semantic-segmentation-with-8 | ProxyCLIP | mIoU: 39.6 |
| unsupervised-semantic-segmentation-with-9 | ProxyCLIP | mIoU: 26.8 |