4 个月前

学习阈值的视觉变压器令牌合并与剪枝

学习阈值的视觉变压器令牌合并与剪枝

摘要

视觉变换器在近年来的多种计算机视觉任务中展现了显著的成功。然而,其高昂的计算成本仍然是实际部署中的一个重要障碍。特别是,变换器模型的复杂度与输入标记的数量呈二次关系。因此,提出了一些减少需要处理的输入标记数量的技术。本文介绍了一种新颖的方法——Learned Thresholds 标记合并与剪枝(LTMP),该方法结合了标记合并和标记剪枝的优势。LTMP 使用学习阈值掩码模块,动态确定哪些标记需要合并,哪些需要剪枝。我们通过在 ImageNet 分类任务上对视觉变换器进行广泛的实验来验证我们的方法。结果表明,LTMP 在各种压缩率下均达到了最先进的精度,同时仅需一个微调周期,比以往的方法快了一个数量级。代码可在 https://github.com/Mxbonn/ltmp 获取。

代码仓库

mxbonn/ltmp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-deit-sLTMP (45%)
GFLOPs: 2.3
Top 1 Accuracy: 78.6
efficient-vits-on-imagenet-1k-with-deit-sLTMP (80%)
GFLOPs: 3.8
Top 1 Accuracy: 79.8
efficient-vits-on-imagenet-1k-with-deit-sLTMP (60%)
GFLOPs: 3.0
Top 1 Accuracy: 79.6
efficient-vits-on-imagenet-1k-with-deit-tLTMP (60%)
GFLOPs: 0.8
Top 1 Accuracy: 71.5
efficient-vits-on-imagenet-1k-with-deit-tLTMP (45%)
GFLOPs: 0.7
Top 1 Accuracy: 69.8
efficient-vits-on-imagenet-1k-with-deit-tLTMP (80%)
GFLOPs: 1.0
Top 1 Accuracy: 72.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习阈值的视觉变压器令牌合并与剪枝 | 论文 | HyperAI超神经