4 个月前

AdaViT:自适应令牌以提高视觉变换器的效率

AdaViT:自适应令牌以提高视觉变换器的效率

摘要

我们介绍了一种名为A-ViT的方法,该方法能够自适应地调整不同复杂度图像的视觉变换器(ViT)推理成本。A-ViT通过在推理过程中自动减少网络中处理的标记数量来实现这一目标。我们为这项任务重新定义了自适应计算时间(Adaptive Computation Time, ACT),扩展了停止机制以丢弃冗余的空间标记。视觉变换器的优良架构特性使我们的自适应标记减少机制能够在不修改网络架构或推理硬件的情况下加速推理过程。我们证明了A-ViT不需要额外的参数或子网络来进行停止操作,因为我们将自适应停止的学习基于原始网络参数进行。此外,我们引入了分布先验正则化,这使得训练比之前的ACT方法更加稳定。在图像分类任务(ImageNet1K)上,我们展示了所提出的A-ViT在筛选信息丰富的空间特征和减少总体计算量方面具有高效率。该方法将DeiT-Tiny的吞吐量提高了62%,将DeiT-Small的吞吐量提高了38%,且仅损失了0.3%的精度,显著优于现有技术。项目页面位于 https://a-vit.github.io/

代码仓库

NVlabs/A-ViT
pytorch
GitHub 中提及

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-deit-sA-ViT
GFLOPs: 3.6
Top 1 Accuracy: 78.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AdaViT:自适应令牌以提高视觉变换器的效率 | 论文 | HyperAI超神经