4 个月前

Evo-ViT:动态视觉变换器中的慢快标记演化

Evo-ViT:动态视觉变换器中的慢快标记演化

摘要

视觉变换器(ViTs)最近受到了爆炸性的关注,但巨大的计算成本仍然是一个严重的问题。由于ViT的计算复杂度与输入序列长度呈二次关系,减少计算的主要方法是减少标记(token)的数量。现有的设计包括使用逐步缩小的金字塔进行结构化空间压缩以减少大型特征图的计算量,以及动态删除冗余标记的非结构化标记修剪。然而,现有标记修剪方法存在两个主要限制:1)修剪导致的空间结构不完整与现代深窄变换器中常用的结构化空间压缩不兼容;2)通常需要耗时的预训练过程。为了解决这些限制并扩展标记修剪的应用场景,我们提出了Evo-ViT,这是一种自驱动的慢-快标记演化方法,适用于视觉变换器。具体而言,我们利用视觉变换器固有的简单而有效的全局类别注意力机制来进行无结构化的实例级标记选择。然后,我们提出通过不同的计算路径分别更新选定的信息丰富标记和信息贫乏标记,即慢-快更新机制。由于慢-快更新机制保持了空间结构和信息流,Evo-ViT可以在训练过程的早期加速扁平和深窄结构的普通变换器。实验结果表明,我们的方法在显著降低视觉变换器计算成本的同时,仍能保持图像分类任务上的相当性能。

代码仓库

YifanXu74/Evo-ViT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-deit-sEvoViT
GFLOPs: 3.0
Top 1 Accuracy: 79.4
efficient-vits-on-imagenet-1k-with-deit-tEvoViT
GFLOPs: 0.8
Top 1 Accuracy: 72.0
image-classification-on-imagenetEvo-LeViT-384*
Number of params: 39.6M
Top 1 Accuracy: 82.2%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Evo-ViT:动态视觉变换器中的慢快标记演化 | 论文 | HyperAI超神经