3 个月前

神经架构的拓扑结构如何影响梯度传播与模型性能?

神经架构的拓扑结构如何影响梯度传播与模型性能?

摘要

DenseNets 引入了连接型跳跃连接(concatenation-type skip connections),在多个计算机视觉任务中实现了当前最优的准确率。本文揭示,这种连接型跳跃连接的拓扑结构与梯度传播密切相关,进而使得深度神经网络(DNNs)的测试性能表现出可预测的行为。为此,我们提出了一种新的度量指标——NN-Mass,用于量化信息在深度神经网络中流动的效率。此外,我们通过实验验证,NN-Mass 也适用于其他类型的跳跃连接,例如 ResNets、Wide-ResNets(WRNs)以及 MobileNets 所采用的加法型跳跃连接(即残差或倒置残差连接)。因此,无论是类似 DenseNet 的卷积神经网络,还是 ResNets/WRNs/MobileNets,我们基于理论支撑的 NN-Mass 均能识别出在准确率相近但模型规模与计算需求显著不同的网络结构。在合成数据与真实数据集(如 MNIST、CIFAR-10、CIFAR-100、ImageNet)上的详尽实验,为上述发现提供了充分证据。最终,由于 NN-Mass 具备闭式表达式,我们能够在模型初始化阶段直接设计出显著压缩的 DenseNets(针对 CIFAR-10)和 MobileNets(针对 ImageNet),无需耗费大量时间进行训练或搜索。

基准测试

基准方法指标
neural-architecture-search-on-cifar-10NN-MASS- CIFAR-C
FLOPS: 1.2G
Parameters: 3.82M
Search Time (GPU days): 0
Top-1 Error Rate: 3.18%
neural-architecture-search-on-cifar-10NN-MASS- CIFAR-A
FLOPS: 1.95G
Parameters: 5.02M
Search Time (GPU days): 0
Top-1 Error Rate: 3.0%
neural-architecture-search-on-imagenetNN-MASS-B
Accuracy: 73.3
FLOPs: 393M
MACs: 393M
Params: 3.7M
Top-1 Error Rate: 26.7
neural-architecture-search-on-imagenetNN-MASS-A
Accuracy: 72.9
FLOPs: 200M
MACs: 200M
Params: 2.3M
Top-1 Error Rate: 27.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
神经架构的拓扑结构如何影响梯度传播与模型性能? | 论文 | HyperAI超神经