3 个月前

BaLeNAS:基于贝叶斯学习规则的可微分架构搜索

BaLeNAS:基于贝叶斯学习规则的可微分架构搜索

摘要

可微分神经架构搜索(Differentiable Architecture Search, DARTS)近年来受到广泛关注,主要得益于其通过权重共享与连续松弛机制显著降低了计算开销。然而,近期研究表明,现有的可微分NAS方法难以超越朴素基线,且在搜索过程中往往生成性能退化的架构。针对这一问题,本文提出将神经架构搜索建模为一个分布学习问题,通过将架构权重松弛为高斯分布,从而避免直接对架构参数进行优化。借助自然梯度变分推断(Natural-Gradient Variational Inference, NGVI),可在不增加内存与计算开销的前提下,基于现有代码库高效优化架构分布。实验表明,该方法充分受益于贝叶斯原则,显著增强了搜索过程中的探索能力并提升了稳定性。在NAS-Bench-201与NAS-Bench-1shot1两个基准数据集上的实验结果验证了所提框架的显著性能提升。此外,不同于简单地对学习得到的参数取argmax,本文进一步引入近期提出的无训练代理(training-free proxies)方法,从优化后的架构分布中采样一组候选架构,并据此筛选出最优架构,从而在NAS-Bench-201与NAS-Bench-1shot1基准上取得了当前最优结果。在DARTS搜索空间中获得的最佳架构,在CIFAR-10、CIFAR-100和ImageNet数据集上分别取得了2.37%、15.72%和24.2%的测试误差,表现出与现有先进方法相当甚至更优的性能。

基准测试

基准方法指标
neural-architecture-search-on-nas-bench-201BaLeNAS-TF
Accuracy (Test): 46.54
Accuracy (Val): 46.14
neural-architecture-search-on-nas-bench-201-1BaLeNAS-TF
Accuracy (Test): 94.33
Accuracy (Val): 91.52
neural-architecture-search-on-nas-bench-201-2BaLeNAS-TF
Accuracy (Test): 72.95
Accuracy (Val): 72.67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BaLeNAS:基于贝叶斯学习规则的可微分架构搜索 | 论文 | HyperAI超神经