
摘要
随着Transformer在语言处理领域的崛起及其在计算机视觉方面的进步,参数规模和训练数据量也相应增长。许多人因此认为,由于这一趋势,Transformer并不适合小规模数据集。这种趋势引发了一些担忧,例如:某些科学领域中数据的有限可用性以及资源有限的研究人员被排除在该领域之外。本文旨在通过引入紧凑型Transformer(Compact Transformers)来展示一种适用于小规模学习的方法。我们首次证明了,通过适当的规模和卷积分词方法,Transformer可以避免过拟合并在小数据集上超越最先进的卷积神经网络(CNN)。我们的模型在模型大小方面具有灵活性,可以在参数量低至0.28M的情况下取得有竞争力的结果。我们的最佳模型仅使用3.7M参数即可从零开始训练,在CIFAR-10数据集上达到98%的准确率,这比之前的基于Transformer的模型在数据效率上有了显著提升,其参数量仅为其他Transformer的十分之一左右,并且只有ResNet50大小的15%,但性能相当。此外,紧凑型Transformer(CCT)还优于许多现代基于CNN的方法,甚至一些最近的基于神经架构搜索(NAS)的方法。我们在Flowers-102数据集上取得了99.76%的Top-1准确率的新最先进结果,并在ImageNet数据集上改进了现有基线(使用ViT所需参数量的29%,达到了82.71%的准确率),同时也在自然语言处理任务中取得了进展。我们对Transformer进行简单而紧凑的设计,使其对于计算资源有限的研究人员或处理小规模数据集的情况更加可行,并扩展了现有的高效利用数据的Transformer研究工作。我们的代码和预训练模型已公开发布在https://github.com/SHI-Labs/Compact-Transformers。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-oxford | CCT-14/7x2 | FLOPS: 15G PARAMS: 22.5M |
| image-classification-on-cifar-10 | CCT-6/3x1 | Percentage correct: 95.29 |
| image-classification-on-cifar-10 | CCT-7/3x1* | Percentage correct: 98 |
| image-classification-on-cifar-100 | CCT-7/3x1* | Percentage correct: 82.72 |
| image-classification-on-cifar-100 | CCT-6/3x1 | PARAMS: 3.17M Percentage correct: 77.31 |
| image-classification-on-flowers-102 | CCT-14/7x2 | Accuracy: 99.76 |
| image-classification-on-imagenet | CCT-14/7x2 | GFLOPs: 11.06 Number of params: 22.36M |