4 个月前

TagCLIP：一种从局部到全局的框架，用于在无需训练的情况下增强CLIP的开放词汇多标签分类

Yuqi Lin; Minghao Chen; Kaipeng Zhang; Hengjia Li; Mingming Li; Zheng Yang; Dongqin Lv; Binbin Lin; Haifeng Liu; Deng Cai

摘要

对比语言-图像预训练（CLIP）在开放词汇分类方面展示了令人印象深刻的能力。图像编码器中的类别标记（class token）通过对比损失监督训练，以捕捉全局特征来区分不同的文本描述，这使其在单标签分类中表现出色。然而，在多标签数据集上，其性能较差，因为全局特征往往被最显著的类别所主导，而softmax操作的对比性质进一步加剧了这一问题。在本研究中，我们观察到多标签分类结果严重依赖于判别性的局部特征，但这些特征却被CLIP忽视了。因此，我们分析了CLIP 中分块空间信息的保留情况，并提出了一种从局部到全局的框架来获取图像标签。该框架包括三个步骤：(1) 分块级别的分类以获得粗略分数；(2) 双重掩码注意力精炼（DMAR）模块以优化粗略分数；(3) 类别级重新识别（CWR）模块从全局视角修正预测结果。此框架完全基于冻结的CLIP模型，并且在各种基准测试中显著提升了其多标签分类性能，无需针对特定数据集进行训练。此外，为了全面评估生成标签的质量和实用性，我们将生成的标签扩展应用于下游任务，即使用生成的图像级伪标签进行弱监督语义分割（WSSS）。实验表明，这种先分类后分割的方法大幅优于其他无注释分割方法，并验证了生成标签的有效性。我们的代码可在 https://github.com/linyq2117/TagCLIP 获取。

代码仓库

linyq2117/tagclip

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
unsupervised-semantic-segmentation-with-1	CLS-SEG	mIoU: 31.0
unsupervised-semantic-segmentation-with-10	CLS-SEG	mIoU: 35.3
unsupervised-semantic-segmentation-with-11	CLS-SEG	mIoU: 68.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供