
摘要
视觉变换器在近年来的多种计算机视觉任务中展现了显著的成功。然而,其高昂的计算成本仍然是实际部署中的一个重要障碍。特别是,变换器模型的复杂度与输入标记的数量呈二次关系。因此,提出了一些减少需要处理的输入标记数量的技术。本文介绍了一种新颖的方法——Learned Thresholds 标记合并与剪枝(LTMP),该方法结合了标记合并和标记剪枝的优势。LTMP 使用学习阈值掩码模块,动态确定哪些标记需要合并,哪些需要剪枝。我们通过在 ImageNet 分类任务上对视觉变换器进行广泛的实验来验证我们的方法。结果表明,LTMP 在各种压缩率下均达到了最先进的精度,同时仅需一个微调周期,比以往的方法快了一个数量级。代码可在 https://github.com/Mxbonn/ltmp 获取。
代码仓库
mxbonn/ltmp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| efficient-vits-on-imagenet-1k-with-deit-s | LTMP (45%) | GFLOPs: 2.3 Top 1 Accuracy: 78.6 |
| efficient-vits-on-imagenet-1k-with-deit-s | LTMP (80%) | GFLOPs: 3.8 Top 1 Accuracy: 79.8 |
| efficient-vits-on-imagenet-1k-with-deit-s | LTMP (60%) | GFLOPs: 3.0 Top 1 Accuracy: 79.6 |
| efficient-vits-on-imagenet-1k-with-deit-t | LTMP (60%) | GFLOPs: 0.8 Top 1 Accuracy: 71.5 |
| efficient-vits-on-imagenet-1k-with-deit-t | LTMP (45%) | GFLOPs: 0.7 Top 1 Accuracy: 69.8 |
| efficient-vits-on-imagenet-1k-with-deit-t | LTMP (80%) | GFLOPs: 1.0 Top 1 Accuracy: 72.0 |