3 个月前

掩码遇见监督:一种强大的学习联盟

掩码遇见监督:一种强大的学习联盟

摘要

以随机掩码输入进行预训练已成为自监督学习领域的一项新兴趋势。然而,监督学习在采用掩码增强技术时仍面临训练不稳定的挑战。本文提出一种全新的掩码增强引入方式,称为掩码子分支(Masked Sub-branch, MaskSub)。MaskSub由主分支与子分支构成,其中子分支是主分支的一部分。在训练过程中,主分支遵循常规训练策略,而子分支则施加更为密集的掩码增强。通过引入一种类似自蒸馏(self-distillation)的松弛损失函数,MaskSub有效缓解了掩码增强带来的负面影响。我们的分析表明,MaskSub能够显著提升模型性能,且训练损失收敛速度优于标准训练方法,表明该方法有助于稳定训练过程。我们进一步在多种训练场景与模型架构中验证了MaskSub的有效性,涵盖DeiT-III训练、MAE微调、CLIP微调、BERT训练以及层级化架构(如ResNet与Swin Transformer)。实验结果表明,MaskSub在所有测试场景中均实现了稳定且显著的性能提升。该方法为在不同训练范式下引入额外正则化提供了一种实用且高效的技术路径。代码已开源,地址为:https://github.com/naver-ai/augsub。

代码仓库

naver-ai/augsub
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetViT-B @224 (DeiT-III + AugSub)
Number of params: 86.6M
Top 1 Accuracy: 84.2%
image-classification-on-imagenetViT-H @224 (DeiT-III + AugSub)
Number of params: 632M
Top 1 Accuracy: 85.7%
image-classification-on-imagenetViT-L @224 (DeiT-III + AugSub)
Number of params: 304M
Top 1 Accuracy: 85.3%
self-supervised-image-classification-on-1MAE + AugSub finetune (ViT-B/16)
Number of Params: 87M
Top 1 Accuracy: 83.9%
self-supervised-image-classification-on-1MAE + AugSub finetune (ViT-L/16)
Number of Params: 304M
Top 1 Accuracy: 86.1%
self-supervised-image-classification-on-1MAE + AugSub finetune (ViT-H/14)
Number of Params: 632M
Top 1 Accuracy: 87.2%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供