3 个月前

直通梯度与软阈值化是否足以实现稀疏训练?

直通梯度与软阈值化是否足以实现稀疏训练?

摘要

在训练神经网络时将权重置零有助于降低推理阶段的计算复杂度。为在训练过程中逐步提高网络稀疏度,同时避免因权重突变导致的不连续问题,本文提出的方法结合了软阈值化(soft-thresholding)与直通梯度估计(straight-through gradient estimation),用于更新被置零权重的原始(即未经过阈值处理)版本。该方法命名为ST-3(Straight-Through / Soft-Thresholding / Sparse Training),在单次训练周期内逐步提升稀疏度时,无论是在精度-稀疏度权衡,还是精度-FLOPS权衡方面,均取得了当前最优(SoA)性能。特别地,尽管ST-3结构简单,其表现仍优于近期采用可微分形式或受生物神经再生机制启发的先进方法。这一结果表明,实现高效稀疏化的关键因素在于:在逐步提高稀疏度的过程中,赋予权重在经过零值状态时能够平滑演化的自由度。项目源代码与模型权重已公开,详见:https://github.com/vanderschuea/stthree

代码仓库

vanderschuea/stthree
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
network-pruning-on-imagenet-resnet-50-90ST-3
Top-1 Accuracy: 76.03

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
直通梯度与软阈值化是否足以实现稀疏训练? | 论文 | HyperAI超神经