3 个月前

对比微调:一点帮助让掩码自编码器遗忘

对比微调:一点帮助让掩码自编码器遗忘

摘要

掩码图像建模(Masked Image Modeling, MIM)方法,如掩码自编码器(Masked Autoencoders, MAE),能够高效地学习输入数据的丰富表征。然而,在适应下游任务时,这类方法通常需要大量标注数据,因为其学到的丰富特征不仅包含物体信息,还编码了与任务关联较弱的图像背景内容。相比之下,实例判别(Instance Discrimination, ID)方法更专注于物体本身。本文研究如何结合MIM方法在效率与可扩展性方面的优势,以及ID方法在缺乏大规模标注数据条件下实现下游分类的能力。为此,我们提出了一种名为掩码自编码器对比微调(Masked Autoencoder Contrastive Tuning, MAE-CT)的序列化方法。该方法利用最近邻对比学习(Nearest Neighbor Contrastive Learning, NNCLR)目标所隐含的聚类特性,引导预训练MAE模型顶层特征形成抽象语义聚类,从而实现无监督的表征优化。MAE-CT在不依赖任何标签的前提下,对MAE的丰富特征进行调优,使其能够自然地形成语义上一致的物体簇。值得注意的是,MAE-CT无需依赖人工设计的数据增强策略,且在仅使用最小程度增强(如裁剪与翻转)的情况下,往往能够取得最佳性能。此外,MAE-CT具有良好的计算效率,其额外开销最多仅为MAE重新训练的10%。当应用于大型及超大型视觉Transformer(Vision Transformer, ViT)模型时,MAE-CT在线性探测(linear probing)、k-近邻分类(k-NN)、低样本分类(low-shot classification)以及无监督聚类等任务上的表现,全面超越此前在ImageNet上训练的自监督方法。其中,基于ViT-H/16架构的MAE-CT在线性探测任务上达到了82.2%的准确率,创下新的最先进水平(state-of-the-art)。

代码仓库

ml-jku/mae-ct
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-clustering-on-imagenetMAE-CT (ViT-H/16 best)
Accuracy: 58.0
NMI: 81.8
image-clustering-on-imagenetMAE-CT (ViT-H/16 mean)
Accuracy: 57.1
NMI: 81.7
image-clustering-on-imagenet-dog-15MAE-CT (best)
ARI: 0.879
Accuracy: 0.943
Backbone: ViT-H/16
Image Size: 224
NMI: 0.904
image-clustering-on-imagenet-dog-15MAE-CT (mean)
ARI: 0.821
Accuracy: 0.874
Backbone: ViT-H/16
Image Size: 224
NMI: 0.882
self-supervised-image-classification-onMAE-CT (ViT-H/16)
Number of Params: 632M
Top 1 Accuracy: 82.2%
self-supervised-image-classification-onMAE-CT (ViT-L/16
Number of Params: 307M
Top 1 Accuracy: 81.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对比微调:一点帮助让掩码自编码器遗忘 | 论文 | HyperAI超神经