
摘要
掩码图像建模(Masked Image Modeling, MIM)方法,如掩码自编码器(Masked Autoencoders, MAE),能够高效地学习输入数据的丰富表征。然而,在适应下游任务时,这类方法通常需要大量标注数据,因为其学到的丰富特征不仅包含物体信息,还编码了与任务关联较弱的图像背景内容。相比之下,实例判别(Instance Discrimination, ID)方法更专注于物体本身。本文研究如何结合MIM方法在效率与可扩展性方面的优势,以及ID方法在缺乏大规模标注数据条件下实现下游分类的能力。为此,我们提出了一种名为掩码自编码器对比微调(Masked Autoencoder Contrastive Tuning, MAE-CT)的序列化方法。该方法利用最近邻对比学习(Nearest Neighbor Contrastive Learning, NNCLR)目标所隐含的聚类特性,引导预训练MAE模型顶层特征形成抽象语义聚类,从而实现无监督的表征优化。MAE-CT在不依赖任何标签的前提下,对MAE的丰富特征进行调优,使其能够自然地形成语义上一致的物体簇。值得注意的是,MAE-CT无需依赖人工设计的数据增强策略,且在仅使用最小程度增强(如裁剪与翻转)的情况下,往往能够取得最佳性能。此外,MAE-CT具有良好的计算效率,其额外开销最多仅为MAE重新训练的10%。当应用于大型及超大型视觉Transformer(Vision Transformer, ViT)模型时,MAE-CT在线性探测(linear probing)、k-近邻分类(k-NN)、低样本分类(low-shot classification)以及无监督聚类等任务上的表现,全面超越此前在ImageNet上训练的自监督方法。其中,基于ViT-H/16架构的MAE-CT在线性探测任务上达到了82.2%的准确率,创下新的最先进水平(state-of-the-art)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-imagenet | MAE-CT (ViT-H/16 best) | Accuracy: 58.0 NMI: 81.8 |
| image-clustering-on-imagenet | MAE-CT (ViT-H/16 mean) | Accuracy: 57.1 NMI: 81.7 |
| image-clustering-on-imagenet-dog-15 | MAE-CT (best) | ARI: 0.879 Accuracy: 0.943 Backbone: ViT-H/16 Image Size: 224 NMI: 0.904 |
| image-clustering-on-imagenet-dog-15 | MAE-CT (mean) | ARI: 0.821 Accuracy: 0.874 Backbone: ViT-H/16 Image Size: 224 NMI: 0.882 |
| self-supervised-image-classification-on | MAE-CT (ViT-H/16) | Number of Params: 632M Top 1 Accuracy: 82.2% |
| self-supervised-image-classification-on | MAE-CT (ViT-L/16 | Number of Params: 307M Top 1 Accuracy: 81.5% |