4 个月前

用于高效视觉变换器的补丁瘦身技术

用于高效视觉变换器的补丁瘦身技术

摘要

本文研究了视觉变压器的效率问题,通过挖掘给定网络中的冗余计算来解决这一问题。近期的变压器架构在一系列计算机视觉任务中展现了其卓越性能的有效性。然而,与卷积神经网络类似,视觉变压器的巨大计算成本仍然是一个严重的问题。鉴于注意力机制逐层聚合不同的图像块(patches),我们提出了一种新颖的图像块瘦身方法,该方法采用自顶向下的范式逐步丢弃无用的图像块。首先,我们在最后一层识别出有效的图像块,然后利用这些有效图像块指导前一层的图像块选择过程。对于每一层,我们近似估计每个图像块对最终输出特征的影响,并移除那些影响较小的图像块。基准数据集上的实验结果表明,所提出的方法可以在不影响性能的情况下显著降低视觉变压器的计算成本。例如,在ImageNet数据集上,ViT-Ti模型的FLOPs可以减少超过45%,而仅导致0.2%的Top-1准确率下降。

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-deit-sDPS-ViT
GFLOPs: 2.4
Top 1 Accuracy: 79.5
efficient-vits-on-imagenet-1k-with-deit-sPS-ViT
GFLOPs: 2.6
Top 1 Accuracy: 79.4
efficient-vits-on-imagenet-1k-with-deit-tPS-ViT
GFLOPs: 0.7
Top 1 Accuracy: 72.0
efficient-vits-on-imagenet-1k-with-deit-tDPS-ViT
GFLOPs: 0.6
Top 1 Accuracy: 72.1
efficient-vits-on-imagenet-1k-with-lv-vit-sDPS-LV-ViT-S
GFLOPs: 4.5
Top 1 Accuracy: 82.9
efficient-vits-on-imagenet-1k-with-lv-vit-sPS-LV-ViT-S
GFLOPs: 4.7
Top 1 Accuracy: 82.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于高效视觉变换器的补丁瘦身技术 | 论文 | HyperAI超神经