3 个月前

自举掩码自编码器用于视觉BERT预训练

Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu

摘要

我们提出了一种名为自举掩码自编码器（Bootstrapped Masked Autoencoders, BootMAE）的新方法，用于视觉BERT的预训练。BootMAE在原始掩码自编码器（Masked Autoencoders, MAE）的基础上引入了两项核心设计：1）动量编码器（momentum encoder），用于提供在线特征作为额外的BERT预测目标；2）目标感知解码器（target-aware decoder），旨在减轻编码器在BERT预训练过程中对特定目标信息进行记忆的压力。第一项设计的动机源于观察发现：使用预训练的MAE提取特征作为被掩码标记的BERT预测目标，能够获得更优的预训练性能。因此，我们在原始MAE编码器的基础上并行引入一个动量编码器，通过其自身表示作为BERT的预测目标，实现对预训练性能的自举提升。第二项设计则将编码器中提取的目标相关特征（如未掩码图像块的像素值）直接输入解码器，从而降低编码器对目标特定信息的记忆负担。由此，编码器得以专注于语义建模——这正是BERT预训练的核心目标——而无需浪费其表达能力去记忆与预测目标相关的未掩码标记信息。通过大量实验验证，BootMAE在使用ViT-B骨干网络的情况下，在ImageNet-1K数据集上达到了84.2%的Top-1准确率，相较于MAE在相同预训练轮次下提升了+0.8%。此外，BootMAE在ADE20K数据集的语义分割任务上实现了+1.0 mIoU的提升，在COCO数据集的目标检测与分割任务上分别取得了+1.3 box AP和+1.4 mask AP的改进。相关代码已开源，地址为：https://github.com/LightDXY/BootMAE。

代码仓库

lightdxy/bootmae

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
self-supervised-image-classification-on-1	BootMAE(ViT-L)	Number of Params: 307M Top 1 Accuracy: 85.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供