3 个月前

在四GPU小时内完成ImageNet上的神经架构搜索:一种理论启发的视角

在四GPU小时内完成ImageNet上的神经架构搜索:一种理论启发的视角

摘要

神经架构搜索(Neural Architecture Search, NAS)近年来得到了爆炸性的发展,旨在自动化发现性能优异的神经网络结构。然而,现有方法通常依赖于对超网络(supernet)的大量训练或对大量架构进行密集评估,导致资源消耗巨大,并且由于训练过程被截断或采用近似方法,容易引入搜索偏差。能否在不进行任何训练的前提下,筛选出最优神经网络架构,并大幅降低搜索成本?本文给出了肯定的回答,提出了一种全新的无训练神经架构搜索框架——TE-NAS(Training-Free Neural Architecture Search)。TE-NAS通过分析神经正切核(Neural Tangent Kernel, NTK)的谱特性以及输入空间中线性区域的数量,对候选架构进行排序。这两项指标均基于深度网络理论研究的最新进展,且无需任何训练过程,也无需标签信息即可计算。我们证明了:(1)这两个度量能够有效反映神经网络的可训练性(trainability)与表达能力(expressivity);(2)它们与网络在测试集上的准确率具有强相关性。在此基础上,我们设计了一种基于剪枝的NAS机制,在搜索过程中实现了可训练性与表达能力之间更灵活、更优越的权衡。在NAS-Bench-201和DARTS搜索空间中,TE-NAS能够在极低的计算开销下完成高质量的架构搜索:在CIFAR-10数据集上仅需0.5个GPU小时(单张1080Ti显卡),在ImageNet数据集上仅需4个GPU小时。相比传统方法,搜索成本显著降低。我们希望本工作能激发更多研究尝试,推动深度网络理论成果与实际NAS应用之间的桥梁建设。代码已开源,地址为:https://github.com/VITA-Group/TENAS。

代码仓库

idstcv/ZenNAS
pytorch
GitHub 中提及
pnnl/torchntk
pytorch
GitHub 中提及
VITA-Group/TENAS
官方
pytorch
GitHub 中提及
vita-group/tegnas
pytorch
GitHub 中提及

基准测试

基准方法指标
neural-architecture-search-on-nats-benchTE-NAS (Chen et al., 2021)
Test Accuracy: 42.38
neural-architecture-search-on-nats-bench-1TE-NAS (Chen et al., 2021)
Test Accuracy: 93.90
neural-architecture-search-on-nats-bench-2TE-NAS (Chen et al., 2021)
Test Accuracy: 71.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在四GPU小时内完成ImageNet上的神经架构搜索:一种理论启发的视角 | 论文 | HyperAI超神经