
摘要
本文提出了一种新颖的可微分架构搜索方法,将该问题建模为分布学习问题。我们将连续松弛后的架构混合权重视为随机变量,并采用狄利克雷(Dirichlet)分布进行建模。借助近期发展的路径导数(pathwise derivatives)技术,Dirichlet分布的参数可借助基于梯度的优化器实现端到端的高效优化。该建模范式不仅提升了模型的泛化能力,还引入了固有的随机性,自然地促进了搜索空间中的探索行为。此外,为缓解可微分神经架构搜索(Differentiable NAS)带来的巨大内存开销,本文进一步提出一种简单而高效的渐进式学习策略,使得在大规模任务上直接进行搜索成为可能,从而消除了搜索阶段与评估阶段之间的差距。大量实验验证了所提方法的有效性:在CIFAR-10数据集上,移动端设置下取得2.46%的测试误差;在ImageNet数据集上,移动端设置下达到23.7%的测试误差。在NAS-Bench-201基准上,我们在全部三个数据集上均取得了当前最优结果,并为神经架构搜索算法的有效设计提供了新的洞见。
代码仓库
xiangning-chen/DrNAS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| neural-architecture-search-on-cifar-10 | DrNAS | Parameters: 4.1M Top-1 Error Rate: 2.46% |
| neural-architecture-search-on-imagenet | DrNAS | Params: 5.7M Top-1 Error Rate: 23.7 |
| neural-architecture-search-on-nas-bench-201 | DrNAS | Accuracy (Test): 46.34 Accuracy (Val): 46.37 |
| neural-architecture-search-on-nas-bench-201-1 | DrNAS | Accuracy (Test): 94.36 Accuracy (Val): 91.55 |
| neural-architecture-search-on-nas-bench-201-2 | DrNAS | Accuracy (Test): 73.51 Accuracy (Val): 73.49 |