4 个月前

逃离大数据范式:使用紧凑型变压器模型

逃离大数据范式:使用紧凑型变压器模型

摘要

随着Transformer在语言处理领域的崛起及其在计算机视觉方面的进步,参数规模和训练数据量也相应增长。许多人因此认为,由于这一趋势,Transformer并不适合小规模数据集。这种趋势引发了一些担忧,例如:某些科学领域中数据的有限可用性以及资源有限的研究人员被排除在该领域之外。本文旨在通过引入紧凑型Transformer(Compact Transformers)来展示一种适用于小规模学习的方法。我们首次证明了,通过适当的规模和卷积分词方法,Transformer可以避免过拟合并在小数据集上超越最先进的卷积神经网络(CNN)。我们的模型在模型大小方面具有灵活性,可以在参数量低至0.28M的情况下取得有竞争力的结果。我们的最佳模型仅使用3.7M参数即可从零开始训练,在CIFAR-10数据集上达到98%的准确率,这比之前的基于Transformer的模型在数据效率上有了显著提升,其参数量仅为其他Transformer的十分之一左右,并且只有ResNet50大小的15%,但性能相当。此外,紧凑型Transformer(CCT)还优于许多现代基于CNN的方法,甚至一些最近的基于神经架构搜索(NAS)的方法。我们在Flowers-102数据集上取得了99.76%的Top-1准确率的新最先进结果,并在ImageNet数据集上改进了现有基线(使用ViT所需参数量的29%,达到了82.71%的准确率),同时也在自然语言处理任务中取得了进展。我们对Transformer进行简单而紧凑的设计,使其对于计算资源有限的研究人员或处理小规模数据集的情况更加可行,并扩展了现有的高效利用数据的Transformer研究工作。我们的代码和预训练模型已公开发布在https://github.com/SHI-Labs/Compact-Transformers。

基准测试

基准方法指标
fine-grained-image-classification-on-oxfordCCT-14/7x2
FLOPS: 15G
PARAMS: 22.5M
image-classification-on-cifar-10CCT-6/3x1
Percentage correct: 95.29
image-classification-on-cifar-10CCT-7/3x1*
Percentage correct: 98
image-classification-on-cifar-100CCT-7/3x1*
Percentage correct: 82.72
image-classification-on-cifar-100CCT-6/3x1
PARAMS: 3.17M
Percentage correct: 77.31
image-classification-on-flowers-102CCT-14/7x2
Accuracy: 99.76
image-classification-on-imagenetCCT-14/7x2
GFLOPs: 11.06
Number of params: 22.36M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
逃离大数据范式:使用紧凑型变压器模型 | 论文 | HyperAI超神经