8 个月前

计算机视觉

Xinjian Wu Fanhu Zeng Xiudong Wang Xinghao Chen

摘要

视觉变换器（Vision Transformers，ViTs）在计算机视觉领域崭露头角，成为强大的模型，在各种视觉任务中表现出色。然而，其高计算复杂度对实际应用构成了重大障碍。鉴于并非所有标记（tokens）都对最终预测有同等贡献，且减少标记数量可以降低计算成本，减少冗余标记已成为加速视觉变换器的一种普遍范式。然而，我们认为仅通过标记剪枝来减少注意力冗余或仅通过标记合并来减少重复冗余并不是最优的方法。为此，本文提出了一种新颖的加速框架——标记剪枝与池化变换器（Token Pruning & Pooling Transformers，PPT），以适应性地处理不同层中的这两种冗余问题。通过在ViTs中启发式地整合标记剪枝和标记池化技术而不增加额外的可训练参数，PPT有效地降低了模型复杂度，同时保持了预测准确性。例如，在ImageNet数据集上，PPT将DeiT-S的浮点运算量减少了超过37%，并将吞吐量提高了超过45%，而没有损失任何准确性。代码可在以下地址获取：https://github.com/xjwu1024/PPT 和 https://github.com/mindspore-lab/models/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Xinjian Wu Fanhu Zeng Xiudong Wang Xinghao Chen

摘要

视觉变换器（Vision Transformers，ViTs）在计算机视觉领域崭露头角，成为强大的模型，在各种视觉任务中表现出色。然而，其高计算复杂度对实际应用构成了重大障碍。鉴于并非所有标记（tokens）都对最终预测有同等贡献，且减少标记数量可以降低计算成本，减少冗余标记已成为加速视觉变换器的一种普遍范式。然而，我们认为仅通过标记剪枝来减少注意力冗余或仅通过标记合并来减少重复冗余并不是最优的方法。为此，本文提出了一种新颖的加速框架——标记剪枝与池化变换器（Token Pruning & Pooling Transformers，PPT），以适应性地处理不同层中的这两种冗余问题。通过在ViTs中启发式地整合标记剪枝和标记池化技术而不增加额外的可训练参数，PPT有效地降低了模型复杂度，同时保持了预测准确性。例如，在ImageNet数据集上，PPT将DeiT-S的浮点运算量减少了超过37%，并将吞吐量提高了超过45%，而没有损失任何准确性。代码可在以下地址获取：https://github.com/xjwu1024/PPT 和 https://github.com/mindspore-lab/models/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供