
摘要
本文提出了一种训练深度神经网络的新视角,该方法能够在无需昂贵的过参数化的情况下实现当前最先进的性能。为此,我们引入了稀疏训练中的“即时过参数化”(In-Time Over-Parameterization, ITOP)概念。通过从一个随机稀疏网络出发,并在训练过程中持续探索稀疏连接结构,我们实现了在时空流形上的过参数化,从而弥合了稀疏训练与密集训练在表达能力上的差距。进一步地,我们利用ITOP机制深入理解动态稀疏训练(Dynamic Sparse Training, DST)的内在原理,指出DST的优势源于其能够在时间维度上综合考虑所有可能的参数,以搜索最优的稀疏连接结构。只要在训练过程中有足够多的参数被可靠地探索,DST便能显著超越密集神经网络的性能。我们通过一系列实验验证了该理论假设,并在ImageNet数据集上基于ResNet-50实现了当前最优的稀疏训练性能。尤为突出的是,我们的方法在极端稀疏度下,仍显著优于基于过参数化的现有稀疏训练方法。在CIFAR-100上的实验表明,即使在高达98%的极端稀疏度下,我们的方法仍可达到与密集模型相当的性能。相关代码已开源,详见:https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization。
代码仓库
vita-group/granet
pytorch
GitHub 中提及
Shiweiliuiiiiiii/In-Time-Over-Parameterization
pytorch
GitHub 中提及
Shiweiliuiiiiiii/GraNet
pytorch
GitHub 中提及
stevenboys/agent
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sparse-learning-on-imagenet | Resnet-50: 90% Sparse 100 epochs | Top-1 Accuracy: 73.82 |
| sparse-learning-on-imagenet | Resnet-50: 80% Sparse 100 epochs | Top-1 Accuracy: 75.84 |