6 个月前

计算机视觉

Antoine Vanderschueren Christophe De Vleeschouwer

摘要

在训练神经网络时将权重置零有助于降低推理阶段的计算复杂度。为在训练过程中逐步提高网络稀疏度，同时避免因权重突变导致的不连续问题，本文提出的方法结合了软阈值化（soft-thresholding）与直通梯度估计（straight-through gradient estimation），用于更新被置零权重的原始（即未经过阈值处理）版本。该方法命名为ST-3（Straight-Through / Soft-Thresholding / Sparse Training），在单次训练周期内逐步提升稀疏度时，无论是在精度-稀疏度权衡，还是精度-FLOPS权衡方面，均取得了当前最优（SoA）性能。特别地，尽管ST-3结构简单，其表现仍优于近期采用可微分形式或受生物神经再生机制启发的先进方法。这一结果表明，实现高效稀疏化的关键因素在于：在逐步提高稀疏度的过程中，赋予权重在经过零值状态时能够平滑演化的自由度。项目源代码与模型权重已公开，详见：https://github.com/vanderschuea/stthree

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Antoine Vanderschueren Christophe De Vleeschouwer

摘要

在训练神经网络时将权重置零有助于降低推理阶段的计算复杂度。为在训练过程中逐步提高网络稀疏度，同时避免因权重突变导致的不连续问题，本文提出的方法结合了软阈值化（soft-thresholding）与直通梯度估计（straight-through gradient estimation），用于更新被置零权重的原始（即未经过阈值处理）版本。该方法命名为ST-3（Straight-Through / Soft-Thresholding / Sparse Training），在单次训练周期内逐步提升稀疏度时，无论是在精度-稀疏度权衡，还是精度-FLOPS权衡方面，均取得了当前最优（SoA）性能。特别地，尽管ST-3结构简单，其表现仍优于近期采用可微分形式或受生物神经再生机制启发的先进方法。这一结果表明，实现高效稀疏化的关键因素在于：在逐步提高稀疏度的过程中，赋予权重在经过零值状态时能够平滑演化的自由度。项目源代码与模型权重已公开，详见：https://github.com/vanderschuea/stthree

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供