
摘要
本文研究了两种用于构建高效自监督视觉Transformer(EsViT)以实现视觉表征学习的技术。首先,通过一项全面的实证研究,我们发现采用多阶段架构并结合稀疏自注意力机制可显著降低模型复杂度,但会牺牲捕捉图像区域间细粒度对应关系的能力。其次,我们提出了一种新的预训练任务——区域匹配(region matching),使模型能够有效捕捉细粒度的区域依赖关系,从而显著提升所学视觉表征的质量。实验结果表明,将上述两种技术相结合后,EsViT在ImageNet线性探测评估中达到81.3%的Top-1准确率,相较于以往方法在性能相当的情况下实现了约一个数量级的更高吞吐量。在迁移至下游线性分类任务时,EsViT在18个数据集中的17个上超越了其监督学习对应模型。代码与模型已公开:https://github.com/microsoft/esvit
代码仓库
microsoft/esvit
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| self-supervised-image-classification-on | EsViT(Swin-S) | Number of Params: 49M Top 1 Accuracy: 80.8 |
| self-supervised-image-classification-on | EsViT (Swin-B) | Number of Params: 87M Top 1 Accuracy: 81.3 Top 5 Accuracy: 95.5 |
| self-supervised-image-classification-on-1 | EsViT (Swin-B) | Number of Params: 87M Top 1 Accuracy: 83.9% |