8 个月前

卷积神经网络

计算机视觉

Yehui Tang Kai Han Yunhe Wang* Chang Xu Jianyuan Guo Chao Xu Dacheng Tao

摘要

本文研究了视觉 Transformer 的效率问题，通过挖掘给定网络中的冗余计算来解决这一问题。近期的 Transformer 架构在一系列计算机视觉任务中展现了其卓越性能的有效性。然而，与卷积神经网络类似，视觉 Transformer 的巨大计算成本仍然是一个严重的问题。鉴于注意力机制逐层聚合不同的图像块（patches），我们提出了一种新颖的图像块瘦身方法，该方法采用自顶向下的范式逐步丢弃无用的图像块。首先，我们在最后一层识别出有效的图像块，然后利用这些有效图像块指导前一层的图像块选择过程。对于每一层，我们近似估计每个图像块对最终输出特征的影响，并移除那些影响较小的图像块。基准数据集上的实验结果表明，所提出的方法可以在不影响性能的情况下显著降低视觉 Transformer 的计算成本。例如，在ImageNet数据集上，ViT-Ti模型的FLOPs可以减少超过45%，而仅导致0.2%的Top-1准确率下降。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Yehui Tang Kai Han Yunhe Wang* Chang Xu Jianyuan Guo Chao Xu Dacheng Tao

摘要

本文研究了视觉 Transformer 的效率问题，通过挖掘给定网络中的冗余计算来解决这一问题。近期的 Transformer 架构在一系列计算机视觉任务中展现了其卓越性能的有效性。然而，与卷积神经网络类似，视觉 Transformer 的巨大计算成本仍然是一个严重的问题。鉴于注意力机制逐层聚合不同的图像块（patches），我们提出了一种新颖的图像块瘦身方法，该方法采用自顶向下的范式逐步丢弃无用的图像块。首先，我们在最后一层识别出有效的图像块，然后利用这些有效图像块指导前一层的图像块选择过程。对于每一层，我们近似估计每个图像块对最终输出特征的影响，并移除那些影响较小的图像块。基准数据集上的实验结果表明，所提出的方法可以在不影响性能的情况下显著降低视觉 Transformer 的计算成本。例如，在ImageNet数据集上，ViT-Ti模型的FLOPs可以减少超过45%，而仅导致0.2%的Top-1准确率下降。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供