7 个月前

摘要

DenseNets 引入了连接型跳跃连接（concatenation-type skip connections），在多个计算机视觉任务中实现了当前最优的准确率。本文揭示，这种连接型跳跃连接的拓扑结构与梯度传播密切相关，进而使得深度神经网络（DNNs）的测试性能表现出可预测的行为。为此，我们提出了一种新的度量指标——NN-Mass，用于量化信息在深度神经网络中流动的效率。此外，我们通过实验验证，NN-Mass 也适用于其他类型的跳跃连接，例如 ResNets、Wide-ResNets（WRNs）以及 MobileNets 所采用的加法型跳跃连接（即残差或倒置残差连接）。因此，无论是类似 DenseNet 的卷积神经网络，还是 ResNets/WRNs/MobileNets，我们基于理论支撑的 NN-Mass 均能识别出在准确率相近但模型规模与计算需求显著不同的网络结构。在合成数据与真实数据集（如 MNIST、CIFAR-10、CIFAR-100、ImageNet）上的详尽实验，为上述发现提供了充分证据。最终，由于 NN-Mass 具备闭式表达式，我们能够在模型初始化阶段直接设计出显著压缩的 DenseNets（针对 CIFAR-10）和 MobileNets（针对 ImageNet），无需耗费大量时间进行训练或搜索。

源 PDF 查看代码