3 个月前

我们真的需要密集的过参数化吗?稀疏训练中的实时过参数化

我们真的需要密集的过参数化吗?稀疏训练中的实时过参数化

摘要

本文提出了一种训练深度神经网络的新视角,该方法能够在无需昂贵的过参数化的情况下实现当前最先进的性能。为此,我们引入了稀疏训练中的“即时过参数化”(In-Time Over-Parameterization, ITOP)概念。通过从一个随机稀疏网络出发,并在训练过程中持续探索稀疏连接结构,我们实现了在时空流形上的过参数化,从而弥合了稀疏训练与密集训练在表达能力上的差距。进一步地,我们利用ITOP机制深入理解动态稀疏训练(Dynamic Sparse Training, DST)的内在原理,指出DST的优势源于其能够在时间维度上综合考虑所有可能的参数,以搜索最优的稀疏连接结构。只要在训练过程中有足够多的参数被可靠地探索,DST便能显著超越密集神经网络的性能。我们通过一系列实验验证了该理论假设,并在ImageNet数据集上基于ResNet-50实现了当前最优的稀疏训练性能。尤为突出的是,我们的方法在极端稀疏度下,仍显著优于基于过参数化的现有稀疏训练方法。在CIFAR-100上的实验表明,即使在高达98%的极端稀疏度下,我们的方法仍可达到与密集模型相当的性能。相关代码已开源,详见:https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization。

代码仓库

vita-group/granet
pytorch
GitHub 中提及
Shiweiliuiiiiiii/GraNet
pytorch
GitHub 中提及
stevenboys/agent
pytorch
GitHub 中提及

基准测试

基准方法指标
sparse-learning-on-imagenetResnet-50: 90% Sparse 100 epochs
Top-1 Accuracy: 73.82
sparse-learning-on-imagenetResnet-50: 80% Sparse 100 epochs
Top-1 Accuracy: 75.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
我们真的需要密集的过参数化吗?稀疏训练中的实时过参数化 | 论文 | HyperAI超神经