3 个月前

用于表征学习的高效自监督视觉Transformer

用于表征学习的高效自监督视觉Transformer

摘要

本文研究了两种用于构建高效自监督视觉Transformer(EsViT)以实现视觉表征学习的技术。首先,通过一项全面的实证研究,我们发现采用多阶段架构并结合稀疏自注意力机制可显著降低模型复杂度,但会牺牲捕捉图像区域间细粒度对应关系的能力。其次,我们提出了一种新的预训练任务——区域匹配(region matching),使模型能够有效捕捉细粒度的区域依赖关系,从而显著提升所学视觉表征的质量。实验结果表明,将上述两种技术相结合后,EsViT在ImageNet线性探测评估中达到81.3%的Top-1准确率,相较于以往方法在性能相当的情况下实现了约一个数量级的更高吞吐量。在迁移至下游线性分类任务时,EsViT在18个数据集中的17个上超越了其监督学习对应模型。代码与模型已公开:https://github.com/microsoft/esvit

代码仓库

microsoft/esvit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
self-supervised-image-classification-onEsViT(Swin-S)
Number of Params: 49M
Top 1 Accuracy: 80.8
self-supervised-image-classification-onEsViT (Swin-B)
Number of Params: 87M
Top 1 Accuracy: 81.3
Top 5 Accuracy: 95.5
self-supervised-image-classification-on-1EsViT (Swin-B)
Number of Params: 87M
Top 1 Accuracy: 83.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于表征学习的高效自监督视觉Transformer | 论文 | HyperAI超神经