4 个月前

TagCLIP:一种从局部到全局的框架,用于在无需训练的情况下增强CLIP的开放词汇多标签分类

TagCLIP:一种从局部到全局的框架,用于在无需训练的情况下增强CLIP的开放词汇多标签分类

摘要

对比语言-图像预训练(CLIP)在开放词汇分类方面展示了令人印象深刻的能力。图像编码器中的类别标记(class token)通过对比损失监督训练,以捕捉全局特征来区分不同的文本描述,这使其在单标签分类中表现出色。然而,在多标签数据集上,其性能较差,因为全局特征往往被最显著的类别所主导,而softmax操作的对比性质进一步加剧了这一问题。在本研究中,我们观察到多标签分类结果严重依赖于判别性的局部特征,但这些特征却被CLIP忽视了。因此,我们分析了CLIP 中分块空间信息的保留情况,并提出了一种从局部到全局的框架来获取图像标签。该框架包括三个步骤:(1) 分块级别的分类以获得粗略分数;(2) 双重掩码注意力精炼(DMAR)模块以优化粗略分数;(3) 类别级重新识别(CWR)模块从全局视角修正预测结果。此框架完全基于冻结的CLIP模型,并且在各种基准测试中显著提升了其多标签分类性能,无需针对特定数据集进行训练。此外,为了全面评估生成标签的质量和实用性,我们将生成的标签扩展应用于下游任务,即使用生成的图像级伪标签进行弱监督语义分割(WSSS)。实验表明,这种先分类后分割的方法大幅优于其他无注释分割方法,并验证了生成标签的有效性。我们的代码可在 https://github.com/linyq2117/TagCLIP 获取。

代码仓库

linyq2117/tagclip
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TagCLIP:一种从局部到全局的框架,用于在无需训练的情况下增强CLIP的开放词汇多标签分类 | 论文 | HyperAI超神经