3 个月前

对比微调：一点帮助让掩码自编码器遗忘

Johannes Lehner Benedikt Alkin Andreas Fürst Elisabeth Rumetshofer Lukas Miklautz Sepp Hochreiter

摘要

掩码图像建模（Masked Image Modeling, MIM）方法，如掩码自编码器（Masked Autoencoders, MAE），能够高效地学习输入数据的丰富表征。然而，在适应下游任务时，这类方法通常需要大量标注数据，因为其学到的丰富特征不仅包含物体信息，还编码了与任务关联较弱的图像背景内容。相比之下，实例判别（Instance Discrimination, ID）方法更专注于物体本身。本文研究如何结合MIM方法在效率与可扩展性方面的优势，以及ID方法在缺乏大规模标注数据条件下实现下游分类的能力。为此，我们提出了一种名为掩码自编码器对比微调（Masked Autoencoder Contrastive Tuning, MAE-CT）的序列化方法。该方法利用最近邻对比学习（Nearest Neighbor Contrastive Learning, NNCLR）目标所隐含的聚类特性，引导预训练MAE模型顶层特征形成抽象语义聚类，从而实现无监督的表征优化。MAE-CT在不依赖任何标签的前提下，对MAE的丰富特征进行调优，使其能够自然地形成语义上一致的物体簇。值得注意的是，MAE-CT无需依赖人工设计的数据增强策略，且在仅使用最小程度增强（如裁剪与翻转）的情况下，往往能够取得最佳性能。此外，MAE-CT具有良好的计算效率，其额外开销最多仅为MAE重新训练的10%。当应用于大型及超大型视觉Transformer（Vision Transformer, ViT）模型时，MAE-CT在线性探测（linear probing）、k-近邻分类（k-NN）、低样本分类（low-shot classification）以及无监督聚类等任务上的表现，全面超越此前在ImageNet上训练的自监督方法。其中，基于ViT-H/16架构的MAE-CT在线性探测任务上达到了82.2%的准确率，创下新的最先进水平（state-of-the-art）。

代码仓库

ml-jku/mae-ct

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-clustering-on-imagenet	MAE-CT (ViT-H/16 best)	Accuracy: 58.0 NMI: 81.8
image-clustering-on-imagenet	MAE-CT (ViT-H/16 mean)	Accuracy: 57.1 NMI: 81.7
image-clustering-on-imagenet-dog-15	MAE-CT (best)	ARI: 0.879 Accuracy: 0.943 Backbone: ViT-H/16 Image Size: 224 NMI: 0.904
image-clustering-on-imagenet-dog-15	MAE-CT (mean)	ARI: 0.821 Accuracy: 0.874 Backbone: ViT-H/16 Image Size: 224 NMI: 0.882
self-supervised-image-classification-on	MAE-CT (ViT-H/16)	Number of Params: 632M Top 1 Accuracy: 82.2%
self-supervised-image-classification-on	MAE-CT (ViT-L/16	Number of Params: 307M Top 1 Accuracy: 81.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供