
摘要
在神经架构搜索(Neural Architecture Search, NAS)领域,可微分架构搜索(Differentiable Architecture Search, DARTS)因其高效性近年来受到广泛关注。该方法通过引入一个超参数化网络,其中每个边代表所有候选操作的混合,采用交替优化的方式联合学习网络权重与架构参数。然而,该方法倾向于找到权重收敛速度最快的模型,而这类收敛最快的模型往往容易出现过拟合现象,导致最终模型的泛化性能不佳。为解决这一问题,本文提出一种名为最小稳定秩可微分架构搜索(Minimum Stable Rank DARTS, MSR-DARTS)的新方法,通过引入最小稳定秩准则替代原有的架构优化过程,以筛选出具有最优泛化误差的模型。具体而言,将卷积操作建模为矩阵形式,MSR-DARTS 选择其中稳定秩最小的卷积操作作为最优候选。我们在 CIFAR-10 和 ImageNet 数据集上对 MSR-DARTS 进行了评估:在 CIFAR-10 上,该方法仅需 0.3 GPU 天即可实现 2.54% 的误差率,且模型参数量仅为 4.0M;在 ImageNet 上,其 top-1 误差率为 23.9%。相关官方代码已开源,地址为:https://github.com/mtaecchhi/msrdarts.git。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| neural-architecture-search-on-cifar-10 | MSR-DARTS | Parameters: 4.0M Search Time (GPU days): 0.3 Top-1 Error Rate: 2.54% |
| neural-architecture-search-on-imagenet | MSR-DARTS (CIFAR-10) | Accuracy: 76.1 MACs: 632M Params: 5.6M Top-1 Error Rate: 23.9 |