XuYifan ; ZhangZhijie ; ZhangMengdan ; ShengKekai ; LiKe ; DongWeiming ; ZhangLiqing ; XuChangsheng ; SunXing

摘要
视觉变换器(ViTs)最近受到了爆炸性的关注,但巨大的计算成本仍然是一个严重的问题。由于ViT的计算复杂度与输入序列长度呈二次关系,减少计算的主要方法是减少标记(token)的数量。现有的设计包括使用逐步缩小的金字塔进行结构化空间压缩以减少大型特征图的计算量,以及动态删除冗余标记的非结构化标记修剪。然而,现有标记修剪方法存在两个主要限制:1)修剪导致的空间结构不完整与现代深窄变换器中常用的结构化空间压缩不兼容;2)通常需要耗时的预训练过程。为了解决这些限制并扩展标记修剪的应用场景,我们提出了Evo-ViT,这是一种自驱动的慢-快标记演化方法,适用于视觉变换器。具体而言,我们利用视觉变换器固有的简单而有效的全局类别注意力机制来进行无结构化的实例级标记选择。然后,我们提出通过不同的计算路径分别更新选定的信息丰富标记和信息贫乏标记,即慢-快更新机制。由于慢-快更新机制保持了空间结构和信息流,Evo-ViT可以在训练过程的早期加速扁平和深窄结构的普通变换器。实验结果表明,我们的方法在显著降低视觉变换器计算成本的同时,仍能保持图像分类任务上的相当性能。
代码仓库
YifanXu74/Evo-ViT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| efficient-vits-on-imagenet-1k-with-deit-s | EvoViT | GFLOPs: 3.0 Top 1 Accuracy: 79.4 |
| efficient-vits-on-imagenet-1k-with-deit-t | EvoViT | GFLOPs: 0.8 Top 1 Accuracy: 72.0 |
| image-classification-on-imagenet | Evo-LeViT-384* | Number of params: 39.6M Top 1 Accuracy: 82.2% |