8 个月前

计算机视觉

Hongxu Yin Arash Vahdat Jose M. Alvarez Arun Mallya Jan Kautz Pavlo Molchanov

摘要

我们介绍了一种名为A-ViT的方法，该方法能够自适应地调整不同复杂度图像的视觉变换器（ViT）推理成本。A-ViT通过在推理过程中自动减少网络中处理的标记数量来实现这一目标。我们为这项任务重新定义了自适应计算时间（Adaptive Computation Time, ACT），扩展了停止机制以丢弃冗余的空间标记。视觉变换器的优良架构特性使我们的自适应标记减少机制能够在不修改网络架构或推理硬件的情况下加速推理过程。我们证明了A-ViT不需要额外的参数或子网络来进行停止操作，因为我们将自适应停止的学习基于原始网络参数进行。此外，我们引入了分布先验正则化，这使得训练比之前的ACT方法更加稳定。在图像分类任务（ImageNet1K）上，我们展示了所提出的A-ViT在筛选信息丰富的空间特征和减少总体计算量方面具有高效率。该方法将DeiT-Tiny的吞吐量提高了62%，将DeiT-Small的吞吐量提高了38%，且仅损失了0.3%的精度，显著优于现有技术。项目页面位于 https://a-vit.github.io/

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Hongxu Yin Arash Vahdat Jose M. Alvarez Arun Mallya Jan Kautz Pavlo Molchanov

摘要

我们介绍了一种名为A-ViT的方法，该方法能够自适应地调整不同复杂度图像的视觉变换器（ViT）推理成本。A-ViT通过在推理过程中自动减少网络中处理的标记数量来实现这一目标。我们为这项任务重新定义了自适应计算时间（Adaptive Computation Time, ACT），扩展了停止机制以丢弃冗余的空间标记。视觉变换器的优良架构特性使我们的自适应标记减少机制能够在不修改网络架构或推理硬件的情况下加速推理过程。我们证明了A-ViT不需要额外的参数或子网络来进行停止操作，因为我们将自适应停止的学习基于原始网络参数进行。此外，我们引入了分布先验正则化，这使得训练比之前的ACT方法更加稳定。在图像分类任务（ImageNet1K）上，我们展示了所提出的A-ViT在筛选信息丰富的空间特征和减少总体计算量方面具有高效率。该方法将DeiT-Tiny的吞吐量提高了62%，将DeiT-Small的吞吐量提高了38%，且仅损失了0.3%的精度，显著优于现有技术。项目页面位于 https://a-vit.github.io/

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供