4 个月前

超越注意力令牌:结合令牌重要性和多样性以提高视觉变换器的效率

超越注意力令牌:结合令牌重要性和多样性以提高视觉变换器的效率

摘要

视觉变换器在各种视觉任务上取得了显著的改进,但其令牌之间的二次交互显著降低了计算效率。近期,许多剪枝方法被提出以去除冗余令牌,从而实现高效的视觉变换器。然而,现有的研究主要集中在保留局部关注令牌的令牌重要性上,而完全忽略了全局令牌多样性。本文强调了多样化全局语义的重要性,并提出了一种有效的令牌解耦和合并方法,该方法可以同时考虑令牌的重要性和多样性进行剪枝。根据类别令牌注意力,我们解耦了关注和非关注令牌。除了保留最具区分性的局部令牌外,我们还合并了相似的非关注令牌,并匹配同质的关注令牌,以最大化令牌多样性。尽管该方法简单,但在模型复杂度和分类准确性之间取得了令人满意的平衡。在DeiT-S模型上,我们的方法减少了35%的浮点运算次数(FLOPs),仅导致0.2%的准确率下降。值得注意的是,由于保持了令牌多样性,我们的方法在减少DeiT-T模型40%的浮点运算次数后,甚至将其准确率提高了0.1%。

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-deit-sBAT (70%)
GFLOPs: 3.0
Top 1 Accuracy: 79.6
efficient-vits-on-imagenet-1k-with-deit-sBAT (60%)
GFLOPs: 2.6
Top 1 Accuracy: 79.3
efficient-vits-on-imagenet-1k-with-deit-sBAT (20%)
GFLOPs: 1.6
Top 1 Accuracy: 76.4
efficient-vits-on-imagenet-1k-with-deit-sBAT (50%)
GFLOPs: 2.3
Top 1 Accuracy: 79.0
efficient-vits-on-imagenet-1k-with-deit-sBAT (30%)
GFLOPs: 1.8
Top 1 Accuracy: 77.8
efficient-vits-on-imagenet-1k-with-deit-sBAT (40%)
GFLOPs: 2.0
Top 1 Accuracy: 78.6
efficient-vits-on-imagenet-1k-with-deit-tBAT
GFLOPs: 0.8
Top 1 Accuracy: 72.3
efficient-vits-on-imagenet-1k-with-lv-vit-sBAT
GFLOPs: 4.7
Top 1 Accuracy: 83.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越注意力令牌:结合令牌重要性和多样性以提高视觉变换器的效率 | 论文 | HyperAI超神经