
摘要
视觉变换器在各种视觉任务上取得了显著的改进,但其令牌之间的二次交互显著降低了计算效率。近期,许多剪枝方法被提出以去除冗余令牌,从而实现高效的视觉变换器。然而,现有的研究主要集中在保留局部关注令牌的令牌重要性上,而完全忽略了全局令牌多样性。本文强调了多样化全局语义的重要性,并提出了一种有效的令牌解耦和合并方法,该方法可以同时考虑令牌的重要性和多样性进行剪枝。根据类别令牌注意力,我们解耦了关注和非关注令牌。除了保留最具区分性的局部令牌外,我们还合并了相似的非关注令牌,并匹配同质的关注令牌,以最大化令牌多样性。尽管该方法简单,但在模型复杂度和分类准确性之间取得了令人满意的平衡。在DeiT-S模型上,我们的方法减少了35%的浮点运算次数(FLOPs),仅导致0.2%的准确率下降。值得注意的是,由于保持了令牌多样性,我们的方法在减少DeiT-T模型40%的浮点运算次数后,甚至将其准确率提高了0.1%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| efficient-vits-on-imagenet-1k-with-deit-s | BAT (70%) | GFLOPs: 3.0 Top 1 Accuracy: 79.6 |
| efficient-vits-on-imagenet-1k-with-deit-s | BAT (60%) | GFLOPs: 2.6 Top 1 Accuracy: 79.3 |
| efficient-vits-on-imagenet-1k-with-deit-s | BAT (20%) | GFLOPs: 1.6 Top 1 Accuracy: 76.4 |
| efficient-vits-on-imagenet-1k-with-deit-s | BAT (50%) | GFLOPs: 2.3 Top 1 Accuracy: 79.0 |
| efficient-vits-on-imagenet-1k-with-deit-s | BAT (30%) | GFLOPs: 1.8 Top 1 Accuracy: 77.8 |
| efficient-vits-on-imagenet-1k-with-deit-s | BAT (40%) | GFLOPs: 2.0 Top 1 Accuracy: 78.6 |
| efficient-vits-on-imagenet-1k-with-deit-t | BAT | GFLOPs: 0.8 Top 1 Accuracy: 72.3 |
| efficient-vits-on-imagenet-1k-with-lv-vit-s | BAT | GFLOPs: 4.7 Top 1 Accuracy: 83.1 |