3 个月前

自举掩码自编码器用于视觉BERT预训练

自举掩码自编码器用于视觉BERT预训练

摘要

我们提出了一种名为自举掩码自编码器(Bootstrapped Masked Autoencoders, BootMAE)的新方法,用于视觉BERT的预训练。BootMAE在原始掩码自编码器(Masked Autoencoders, MAE)的基础上引入了两项核心设计:1)动量编码器(momentum encoder),用于提供在线特征作为额外的BERT预测目标;2)目标感知解码器(target-aware decoder),旨在减轻编码器在BERT预训练过程中对特定目标信息进行记忆的压力。第一项设计的动机源于观察发现:使用预训练的MAE提取特征作为被掩码标记的BERT预测目标,能够获得更优的预训练性能。因此,我们在原始MAE编码器的基础上并行引入一个动量编码器,通过其自身表示作为BERT的预测目标,实现对预训练性能的自举提升。第二项设计则将编码器中提取的目标相关特征(如未掩码图像块的像素值)直接输入解码器,从而降低编码器对目标特定信息的记忆负担。由此,编码器得以专注于语义建模——这正是BERT预训练的核心目标——而无需浪费其表达能力去记忆与预测目标相关的未掩码标记信息。通过大量实验验证,BootMAE在使用ViT-B骨干网络的情况下,在ImageNet-1K数据集上达到了84.2%的Top-1准确率,相较于MAE在相同预训练轮次下提升了+0.8%。此外,BootMAE在ADE20K数据集的语义分割任务上实现了+1.0 mIoU的提升,在COCO数据集的目标检测与分割任务上分别取得了+1.3 box AP和+1.4 mask AP的改进。相关代码已开源,地址为:https://github.com/LightDXY/BootMAE。

代码仓库

lightdxy/bootmae
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
self-supervised-image-classification-on-1BootMAE(ViT-L)
Number of Params: 307M
Top 1 Accuracy: 85.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自举掩码自编码器用于视觉BERT预训练 | 论文 | HyperAI超神经