6 个月前

摘要

我们提出了块对齐对比学习（Patch Aligned Contrastive Learning, PACL），这是一种对CLIP模型对比损失所用兼容性函数的改进方法，旨在实现视觉编码器的图像块（patch）令牌与文本编码器的CLS令牌之间的对齐。通过这种对齐机制，模型能够识别出图像中与给定文本输入相对应的区域，从而在无需任何分割标注的情况下，无缝迁移至开放词汇语义分割任务。利用预训练的CLIP编码器结合PACL方法，我们在四个不同的语义分割基准测试（Pascal VOC、Pascal Context、COCO Stuff 和 ADE20K）上实现了开放词汇零样本分割任务的当前最优性能。此外，我们还证明了PACL同样适用于图像级预测任务；当与CLIP主干网络结合使用时，相较于原始CLIP模型，PACL在12个图像分类数据集上均显著提升了零样本分类准确率，展现出广泛的性能增益。

源 PDF