
摘要
对比语言图像预训练(CLIP)最近在各种任务中展示了成功,这得益于通过图像-文本对比学习获得的优越特征表示。然而,CLIP所使用的实例判别方法很难对训练数据的语义结构进行编码。为了解决这一局限性,提出了通过迭代聚类分配和分类的聚类判别方法。然而,大多数聚类判别方法仅为每张图像定义一个伪标签,忽略了图像中的多标签信号。在本文中,我们提出了一种新的多标签聚类判别方法,命名为MLCD,以增强表示学习。在聚类步骤中,我们首先基于现成的嵌入特征将大规模LAION-400M数据集聚类为一百万个中心。考虑到自然图像通常包含多个视觉对象或属性,我们选择多个最近的中心作为辅助类别标签。在判别步骤中,我们设计了一种新颖的多标签分类损失函数,该损失函数优雅地分离了正类别和负类别的损失,并减轻了决策边界的模糊性。我们在不同规模的模型和预训练数据集上进行了实验,验证了所提出的多标签聚类判别方法的有效性。实验结果表明,我们的方法在多个下游任务中取得了最先进的性能,包括线性探针、零样本分类和图像-文本检索。代码和模型已发布在https://github.com/deepglint/unicom 。
代码仓库
deepglint/unicom
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refcoco | MLCD-Seg-7B | Overall IoU: 83.6 |
| referring-expression-segmentation-on-refcoco-3 | MLCD-Seg-7B | Overall IoU: 79.4 |
| referring-expression-segmentation-on-refcoco-4 | MLCD-Seg-7B | Overall IoU: 82.9 |
| referring-expression-segmentation-on-refcoco-5 | MLCD-Seg-7B | Overall IoU: 75.6 |
| referring-expression-segmentation-on-refcoco-8 | MLCD-Seg-7B | Overall IoU: 85.3 |
| referring-expression-segmentation-on-refcoco-9 | MLCD-Seg-7B | Overall IoU: 81.5 |
| referring-expression-segmentation-on-refcocog | MLCD-Seg-7B | Overall IoU: 79.9 |
| referring-expression-segmentation-on-refcocog-1 | MLCD-Seg-7B | Overall IoU: 80.5 |
| visual-question-answering-on-docvqa-test | MLCD-Embodied-7B | ANLS: 0.916 |