
摘要
我们介绍了一种名为MIM(Masked Image Modeling)-Refiner的对比学习方法,用于提升预训练的MIM模型。MIM-Refiner的设计灵感来源于一个重要的观察,即在MIM模型中,强大的表示通常存在于中间层。因此,MIM-Refiner利用多个连接到不同中间层的对比头。在每个对比头中,通过修改后的最近邻目标构建语义聚类,这些聚类能够捕捉语义信息,从而提高下游任务的性能,包括即用型设置和微调设置。精炼过程简短且简单——但效果显著。经过几个epoch的训练,我们将MIM模型的特征从次优提升到了最先进的即用型特征水平。例如,使用data2vec 2.0在ImageNet-1K上预训练的ViT-H模型,在线性探测任务中达到了84.7%的新纪录,并在低样本分类任务中也创下了ImageNet-1K预训练模型的最佳成绩。MIM-Refiner高效地结合了MIM和ID目标的优势,在低样本分类、长尾分类、聚类和语义分割等多种基准测试中表现优于之前的自监督学习(SSL)模型。
代码仓库
ml-jku/MIM-Refiner
官方
pytorch
GitHub 中提及
BenediktAlkin/vtab1k-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-imagenet | MIM-Refiner (D2V2-ViT-H/14) | ARI: 42.2 Accuracy: 67.3 NMI: 87.2 |
| image-clustering-on-imagenet | MIM-Refiner (MAE-ViT-H/14) | ARI: 45.5 Accuracy: 64.6 NMI: 85.3 |
| self-supervised-image-classification-on | MIM-Refiner (MAE-ViT-2B/14) | Number of Params: 1890M Top 1 Accuracy: 84.5% |
| self-supervised-image-classification-on | MIM-Refiner (MAE-ViT-H/14 | Number of Params: 632M Top 1 Accuracy: 83.7% |
| self-supervised-image-classification-on | MIM-Refiner (MAE-ViT-L/16) | Number of Params: 307M Top 1 Accuracy: 82.8% |
| self-supervised-image-classification-on | MIM-Refiner (D2V2-ViT-H/14) | Number of Params: 632M Top 1 Accuracy: 84.7% |
| self-supervised-image-classification-on | MIM-Refiner (D2V2-ViT-L/16) | Number of Params: 307M Top 1 Accuracy: 83.5% |