6 个月前

摘要

深度神经网络通常在消费级硬件和低功耗设备上实时运行时计算开销过大。本文研究通过网络剪枝（network pruning）与量化（quantisation）技术降低神经网络的计算与内存需求。我们对比了这些方法在大型网络（如AlexNet）与近期轻量级架构（ShuffleNet和MobileNet）上的有效性。实验结果表明，剪枝与量化可将这些网络压缩至原始大小的一半以下，并显著提升运行效率，尤其在MobileNet上实现了高达7倍的加速。此外，我们还证明，剪枝不仅能够减少网络参数数量，还能有效缓解过拟合问题。

源 PDF