3 个月前

基于图像块对齐对比学习的开放词汇语义分割

基于图像块对齐对比学习的开放词汇语义分割

摘要

我们提出了块对齐对比学习(Patch Aligned Contrastive Learning, PACL),这是一种对CLIP模型对比损失所用兼容性函数的改进方法,旨在实现视觉编码器的图像块(patch)令牌与文本编码器的CLS令牌之间的对齐。通过这种对齐机制,模型能够识别出图像中与给定文本输入相对应的区域,从而在无需任何分割标注的情况下,无缝迁移至开放词汇语义分割任务。利用预训练的CLIP编码器结合PACL方法,我们在四个不同的语义分割基准测试(Pascal VOC、Pascal Context、COCO Stuff 和 ADE20K)上实现了开放词汇零样本分割任务的当前最优性能。此外,我们还证明了PACL同样适用于图像级预测任务;当与CLIP主干网络结合使用时,相较于原始CLIP模型,PACL在12个图像分类数据集上均显著提升了零样本分类准确率,展现出广泛的性能增益。

代码仓库

paulcouairon/diffcut
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图像块对齐对比学习的开放词汇语义分割 | 论文 | HyperAI超神经