
摘要
对比语言-图像预训练(CLIP)在开放词汇分类方面展示了令人印象深刻的能力。图像编码器中的类别标记(class token)通过对比损失监督训练,以捕捉全局特征来区分不同的文本描述,这使其在单标签分类中表现出色。然而,在多标签数据集上,其性能较差,因为全局特征往往被最显著的类别所主导,而softmax操作的对比性质进一步加剧了这一问题。在本研究中,我们观察到多标签分类结果严重依赖于判别性的局部特征,但这些特征却被CLIP忽视了。因此,我们分析了CLIP 中分块空间信息的保留情况,并提出了一种从局部到全局的框架来获取图像标签。该框架包括三个步骤:(1) 分块级别的分类以获得粗略分数;(2) 双重掩码注意力精炼(DMAR)模块以优化粗略分数;(3) 类别级重新识别(CWR)模块从全局视角修正预测结果。此框架完全基于冻结的CLIP模型,并且在各种基准测试中显著提升了其多标签分类性能,无需针对特定数据集进行训练。此外,为了全面评估生成标签的质量和实用性,我们将生成的标签扩展应用于下游任务,即使用生成的图像级伪标签进行弱监督语义分割(WSSS)。实验表明,这种先分类后分割的方法大幅优于其他无注释分割方法,并验证了生成标签的有效性。我们的代码可在 https://github.com/linyq2117/TagCLIP 获取。
代码仓库
linyq2117/tagclip
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-with-1 | CLS-SEG | mIoU: 31.0 |
| unsupervised-semantic-segmentation-with-10 | CLS-SEG | mIoU: 35.3 |
| unsupervised-semantic-segmentation-with-11 | CLS-SEG | mIoU: 68.7 |