4 个月前

并非所有补丁都是你需要的:通过令牌重组加速视觉变换器

并非所有补丁都是你需要的:通过令牌重组加速视觉变换器

摘要

视觉变换器(ViTs)将所有图像块作为标记,并在它们之间构建多头自注意力机制(MHSA)。然而,由于并非所有标记在MHSA中都具有注意性,因此对这些图像标记的完全利用会带来冗余计算。例如,包含语义上无意义或分散注意力的图像背景的标记不会对ViT的预测产生积极贡献。在这项工作中,我们提出在ViT模型的前馈过程中重新组织图像标记,该方法在训练过程中被集成到ViT中。对于每次前向推理,我们通过相应的类别标记注意力来指导识别MHSA和FFN(即前馈网络)模块之间的注意性图像标记。然后,我们通过保留注意性图像标记并融合非注意性标记来重新组织图像标记,以加速后续的MHSA和FFN计算。为此,我们的方法EViT从两个方面改进了ViTs。首先,在相同数量的输入图像标记下,我们的方法减少了MHSA和FFN的计算量,从而提高了推理效率。例如,在ImageNet分类任务中,DeiT-S的推理速度提高了50%,而其识别准确率仅下降了0.3%。其次,在保持相同的计算成本的前提下,我们的方法使ViTs能够处理更多的图像标记以提高识别准确率,这些图像标记来自更高分辨率的图像。一个例子是在与普通DeiT-S相同的计算成本下,我们将DeiT-S在ImageNet分类任务中的识别准确率提高了1%。同时,我们的方法没有增加ViTs的参数量。标准基准测试上的实验结果证明了我们方法的有效性。代码可在 https://github.com/youweiliang/evit 获取。

代码仓库

youweiliang/evit
官方
pytorch
GitHub 中提及
shiming-chen/zslvit
pytorch
GitHub 中提及

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-deit-sEViT (80%)
GFLOPs: 3.5
Top 1 Accuracy: 79.8
efficient-vits-on-imagenet-1k-with-deit-sEViT (90%)
GFLOPs: 4.0
Top 1 Accuracy: 79.8
efficient-vits-on-imagenet-1k-with-deit-sEViT (60%)
GFLOPs: 2.6
Top 1 Accuracy: 78.9
efficient-vits-on-imagenet-1k-with-deit-sEViT (50%)
GFLOPs: 2.3
Top 1 Accuracy: 78.5
efficient-vits-on-imagenet-1k-with-deit-sEViT (70%)
GFLOPs: 3.0
Top 1 Accuracy: 79.5
efficient-vits-on-imagenet-1k-with-lv-vit-sEViT (50%)
GFLOPs: 3.9
Top 1 Accuracy: 82.5
efficient-vits-on-imagenet-1k-with-lv-vit-sEViT (70%)
GFLOPs: 4.7
Top 1 Accuracy: 83.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
并非所有补丁都是你需要的:通过令牌重组加速视觉变换器 | 论文 | HyperAI超神经