3 个月前

SparseSwin:基于稀疏Transformer块的Swin Transformer

SparseSwin:基于稀疏Transformer块的Swin Transformer

摘要

计算机视觉研究的进展已使Transformer架构成为计算机视觉任务中的最新技术标准。然而,Transformer架构的一个已知缺陷是参数量过大,这可能导致算法更加复杂且效率低下。本文旨在减少模型参数数量,从而提升Transformer架构的效率。为此,我们提出了一种改进的Transformer模块——稀疏Transformer模块(SparTa Block),该模块引入了一个稀疏令牌转换器(sparse token converter),有效减少了处理的令牌(token)数量。我们将SparTa Block嵌入到Swin-T架构中,构建了SparseSwin模型,充分利用Swin架构下采样的能力,降低初始输入令牌的数量,从而减少计算负担。实验结果表明,所提出的SparseSwin模型在图像分类任务中表现优异,在ImageNet100、CIFAR10和CIFAR100数据集上的准确率分别达到86.96%、97.43%和85.35%,显著优于当前其他先进模型。尽管参数量更少,该结果充分展示了基于稀疏令牌转换器、以有限令牌数量运行的Transformer架构在优化计算资源利用与提升性能方面的巨大潜力。

代码仓库

基准测试

基准方法指标
image-classification-on-cifar-10SparseSwin
Percentage correct: 97.43
image-classification-on-cifar-100SparseSwin
PARAMS: 17.58M
Percentage correct: 85.35
image-classification-on-imagenet-100SparseSwin with L2
Params: 17.58M
Percentage correct: 86.96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SparseSwin:基于稀疏Transformer块的Swin Transformer | 论文 | HyperAI超神经