3 个月前

DrNAS:狄利克雷神经架构搜索

DrNAS:狄利克雷神经架构搜索

摘要

本文提出了一种新颖的可微分架构搜索方法,将该问题建模为分布学习问题。我们将连续松弛后的架构混合权重视为随机变量,并采用狄利克雷(Dirichlet)分布进行建模。借助近期发展的路径导数(pathwise derivatives)技术,Dirichlet分布的参数可借助基于梯度的优化器实现端到端的高效优化。该建模范式不仅提升了模型的泛化能力,还引入了固有的随机性,自然地促进了搜索空间中的探索行为。此外,为缓解可微分神经架构搜索(Differentiable NAS)带来的巨大内存开销,本文进一步提出一种简单而高效的渐进式学习策略,使得在大规模任务上直接进行搜索成为可能,从而消除了搜索阶段与评估阶段之间的差距。大量实验验证了所提方法的有效性:在CIFAR-10数据集上,移动端设置下取得2.46%的测试误差;在ImageNet数据集上,移动端设置下达到23.7%的测试误差。在NAS-Bench-201基准上,我们在全部三个数据集上均取得了当前最优结果,并为神经架构搜索算法的有效设计提供了新的洞见。

代码仓库

xiangning-chen/DrNAS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
neural-architecture-search-on-cifar-10DrNAS
Parameters: 4.1M
Top-1 Error Rate: 2.46%
neural-architecture-search-on-imagenetDrNAS
Params: 5.7M
Top-1 Error Rate: 23.7
neural-architecture-search-on-nas-bench-201DrNAS
Accuracy (Test): 46.34
Accuracy (Val): 46.37
neural-architecture-search-on-nas-bench-201-1DrNAS
Accuracy (Test): 94.36
Accuracy (Val): 91.55
neural-architecture-search-on-nas-bench-201-2DrNAS
Accuracy (Test): 73.51
Accuracy (Val): 73.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DrNAS:狄利克雷神经架构搜索 | 论文 | HyperAI超神经