
摘要
我们提出了一种名为自举掩码自编码器(Bootstrapped Masked Autoencoders, BootMAE)的新方法,用于视觉BERT的预训练。BootMAE在原始掩码自编码器(Masked Autoencoders, MAE)的基础上引入了两项核心设计:1)动量编码器(momentum encoder),用于提供在线特征作为额外的BERT预测目标;2)目标感知解码器(target-aware decoder),旨在减轻编码器在BERT预训练过程中对特定目标信息进行记忆的压力。第一项设计的动机源于观察发现:使用预训练的MAE提取特征作为被掩码标记的BERT预测目标,能够获得更优的预训练性能。因此,我们在原始MAE编码器的基础上并行引入一个动量编码器,通过其自身表示作为BERT的预测目标,实现对预训练性能的自举提升。第二项设计则将编码器中提取的目标相关特征(如未掩码图像块的像素值)直接输入解码器,从而降低编码器对目标特定信息的记忆负担。由此,编码器得以专注于语义建模——这正是BERT预训练的核心目标——而无需浪费其表达能力去记忆与预测目标相关的未掩码标记信息。通过大量实验验证,BootMAE在使用ViT-B骨干网络的情况下,在ImageNet-1K数据集上达到了84.2%的Top-1准确率,相较于MAE在相同预训练轮次下提升了+0.8%。此外,BootMAE在ADE20K数据集的语义分割任务上实现了+1.0 mIoU的提升,在COCO数据集的目标检测与分割任务上分别取得了+1.3 box AP和+1.4 mask AP的改进。相关代码已开源,地址为:https://github.com/LightDXY/BootMAE。
代码仓库
lightdxy/bootmae
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| self-supervised-image-classification-on-1 | BootMAE(ViT-L) | Number of Params: 307M Top 1 Accuracy: 85.9% |