
摘要
我们介绍了一种名为A-ViT的方法,该方法能够自适应地调整不同复杂度图像的视觉变换器(ViT)推理成本。A-ViT通过在推理过程中自动减少网络中处理的标记数量来实现这一目标。我们为这项任务重新定义了自适应计算时间(Adaptive Computation Time, ACT),扩展了停止机制以丢弃冗余的空间标记。视觉变换器的优良架构特性使我们的自适应标记减少机制能够在不修改网络架构或推理硬件的情况下加速推理过程。我们证明了A-ViT不需要额外的参数或子网络来进行停止操作,因为我们将自适应停止的学习基于原始网络参数进行。此外,我们引入了分布先验正则化,这使得训练比之前的ACT方法更加稳定。在图像分类任务(ImageNet1K)上,我们展示了所提出的A-ViT在筛选信息丰富的空间特征和减少总体计算量方面具有高效率。该方法将DeiT-Tiny的吞吐量提高了62%,将DeiT-Small的吞吐量提高了38%,且仅损失了0.3%的精度,显著优于现有技术。项目页面位于 https://a-vit.github.io/
代码仓库
NVlabs/A-ViT
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| efficient-vits-on-imagenet-1k-with-deit-s | A-ViT | GFLOPs: 3.6 Top 1 Accuracy: 78.6 |