6 个月前

卷积神经网络

计算机视觉

Kengo Machida Kuniaki Uto Koichi Shinoda Taiji Suzuki

摘要

在神经架构搜索（Neural Architecture Search, NAS）领域，可微分架构搜索（Differentiable Architecture Search, DARTS）因其高效性近年来受到广泛关注。该方法通过引入一个超参数化网络，其中每个边代表所有候选操作的混合，采用交替优化的方式联合学习网络权重与架构参数。然而，该方法倾向于找到权重收敛速度最快的模型，而这类收敛最快的模型往往容易出现过拟合现象，导致最终模型的泛化性能不佳。为解决这一问题，本文提出一种名为最小稳定秩可微分架构搜索（Minimum Stable Rank DARTS, MSR-DARTS）的新方法，通过引入最小稳定秩准则替代原有的架构优化过程，以筛选出具有最优泛化误差的模型。具体而言，将卷积操作建模为矩阵形式，MSR-DARTS 选择其中稳定秩最小的卷积操作作为最优候选。我们在 CIFAR-10 和 ImageNet 数据集上对 MSR-DARTS 进行了评估：在 CIFAR-10 上，该方法仅需 0.3 GPU 天即可实现 2.54% 的误差率，且模型参数量仅为 4.0M；在 ImageNet 上，其 top-1 误差率为 23.9%。相关官方代码已开源，地址为：https://github.com/mtaecchhi/msrdarts.git。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Kengo Machida Kuniaki Uto Koichi Shinoda Taiji Suzuki

摘要

在神经架构搜索（Neural Architecture Search, NAS）领域，可微分架构搜索（Differentiable Architecture Search, DARTS）因其高效性近年来受到广泛关注。该方法通过引入一个超参数化网络，其中每个边代表所有候选操作的混合，采用交替优化的方式联合学习网络权重与架构参数。然而，该方法倾向于找到权重收敛速度最快的模型，而这类收敛最快的模型往往容易出现过拟合现象，导致最终模型的泛化性能不佳。为解决这一问题，本文提出一种名为最小稳定秩可微分架构搜索（Minimum Stable Rank DARTS, MSR-DARTS）的新方法，通过引入最小稳定秩准则替代原有的架构优化过程，以筛选出具有最优泛化误差的模型。具体而言，将卷积操作建模为矩阵形式，MSR-DARTS 选择其中稳定秩最小的卷积操作作为最优候选。我们在 CIFAR-10 和 ImageNet 数据集上对 MSR-DARTS 进行了评估：在 CIFAR-10 上，该方法仅需 0.3 GPU 天即可实现 2.54% 的误差率，且模型参数量仅为 4.0M；在 ImageNet 上，其 top-1 误差率为 23.9%。相关官方代码已开源，地址为：https://github.com/mtaecchhi/msrdarts.git。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MSR-DARTS：可微分架构搜索的最小稳定秩 | 论文 | HyperAI超神经