4 个月前

未见深度架构的参数预测

未见深度架构的参数预测

摘要

深度学习在自动化机器学习流水线中的特征设计方面取得了显著成功。然而,用于优化神经网络参数的算法仍然主要依赖手工设计,并且计算效率低下。本文研究了是否可以通过利用训练其他网络的历史知识,直接使用深度学习预测这些参数。为此,我们引入了一个包含多种神经架构计算图的大规模数据集——DeepNets-1M,并利用该数据集在CIFAR-10和ImageNet上探索参数预测。通过借鉴图神经网络的最新进展,我们提出了一种超网络模型,该模型能够在一次前向传播中快速预测出高效的参数,即使在CPU上也只需几秒钟的时间。所提出的模型在未见过且多样化的网络上表现出令人惊讶的良好性能。例如,它能够预测ResNet-50的所有2400万个参数,在CIFAR-10上的准确率达到60%。而在ImageNet上,某些网络的前五名准确率接近50%。我们的任务、模型及结果有望引领一种新的、更加计算高效的网络训练范式。此外,我们的模型还学会了对神经架构进行强有力的表示,从而能够对其进行分析。

代码仓库

基准测试

基准方法指标
parameter-prediction-on-cifar10GHN-2
Classification Accuracy (BN-free): 36.8
Classification Accuracy (Deep): 60.5
Classification Accuracy (Dense): 65.8
Classification Accuracy (ID-test): 66.9
Classification Accuracy (ResNet-50): 58.6
Classification Accuracy (ViT): 11.4
Classification Accuracy (Wide): 64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
未见深度架构的参数预测 | 论文 | HyperAI超神经