Krisna PinasthikaBlessius Sheldo Putra LaksonoRiyandi Banovbi Putera IrsalSyifa Hukma ShabiyyaNovanto Yudistira

摘要
计算机视觉研究的进展已使Transformer架构成为计算机视觉任务中的最新技术标准。然而,Transformer架构的一个已知缺陷是参数量过大,这可能导致算法更加复杂且效率低下。本文旨在减少模型参数数量,从而提升Transformer架构的效率。为此,我们提出了一种改进的Transformer模块——稀疏Transformer模块(SparTa Block),该模块引入了一个稀疏令牌转换器(sparse token converter),有效减少了处理的令牌(token)数量。我们将SparTa Block嵌入到Swin-T架构中,构建了SparseSwin模型,充分利用Swin架构下采样的能力,降低初始输入令牌的数量,从而减少计算负担。实验结果表明,所提出的SparseSwin模型在图像分类任务中表现优异,在ImageNet100、CIFAR10和CIFAR100数据集上的准确率分别达到86.96%、97.43%和85.35%,显著优于当前其他先进模型。尽管参数量更少,该结果充分展示了基于稀疏令牌转换器、以有限令牌数量运行的Transformer架构在优化计算资源利用与提升性能方面的巨大潜力。
代码仓库
krisnapinasthika/sparseswin
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | SparseSwin | Percentage correct: 97.43 |
| image-classification-on-cifar-100 | SparseSwin | PARAMS: 17.58M Percentage correct: 85.35 |
| image-classification-on-imagenet-100 | SparseSwin with L2 | Params: 17.58M Percentage correct: 86.96 |