6 个月前

摘要

我们提出了一种自监督视觉表征模型——BEiT（Bidirectional Encoder Representation from Image Transformers），该模型借鉴了自然语言处理领域中BERT的思路，设计了一种掩码图像建模任务，用于预训练视觉Transformer。在预训练阶段，每张图像包含两种视图：图像块（如16×16像素的局部区域）和视觉标记（即离散的视觉 token）。首先，我们将原始图像“分词”为视觉标记；随后，随机掩码部分图像块，并将这些被破坏的图像块输入主干Transformer网络。预训练的目标是基于受损的图像块恢复出原始的视觉标记。在完成BEiT的预训练后，我们仅通过在预训练编码器之上添加特定任务的层，即可直接对下游任务进行微调。在图像分类与语义分割任务上的实验结果表明，该模型在性能上与以往的预训练方法相当，甚至更优。例如，基于基础尺寸的BEiT在ImageNet-1K数据集上达到了83.2%的Top-1准确率，显著优于相同设置下从零开始训练的DeiT模型（81.8%）。此外，大型尺寸的BEiT仅使用ImageNet-1K数据进行预训练，便取得了86.3%的准确率，甚至超过了在ImageNet-22K上采用监督预训练的ViT-L模型（85.2%）。相关代码与预训练模型已开源，可访问 https://aka.ms/beit。

源 PDF