HyperAIHyperAI

Command Palette

Search for a command to run...

BEiT:图像Transformer的BERT预训练

Hangbo Bao Li Dong Songhao Piao Furu Wei

摘要

我们提出了一种自监督视觉表征模型——BEiT(Bidirectional Encoder Representation from Image Transformers),该模型借鉴了自然语言处理领域中BERT的思路,设计了一种掩码图像建模任务,用于预训练视觉Transformer。在预训练阶段,每张图像包含两种视图:图像块(如16×16像素的局部区域)和视觉标记(即离散的视觉 token)。首先,我们将原始图像“分词”为视觉标记;随后,随机掩码部分图像块,并将这些被破坏的图像块输入主干Transformer网络。预训练的目标是基于受损的图像块恢复出原始的视觉标记。在完成BEiT的预训练后,我们仅通过在预训练编码器之上添加特定任务的层,即可直接对下游任务进行微调。在图像分类与语义分割任务上的实验结果表明,该模型在性能上与以往的预训练方法相当,甚至更优。例如,基于基础尺寸的BEiT在ImageNet-1K数据集上达到了83.2%的Top-1准确率,显著优于相同设置下从零开始训练的DeiT模型(81.8%)。此外,大型尺寸的BEiT仅使用ImageNet-1K数据进行预训练,便取得了86.3%的准确率,甚至超过了在ImageNet-22K上采用监督预训练的ViT-L模型(85.2%)。相关代码与预训练模型已开源,可访问 https://aka.ms/beit


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供