6 个月前

计算机视觉

Xiangning Chen Ruochen Wang Minhao Cheng Xiaocheng Tang Cho-Jui Hsieh

摘要

本文提出了一种新颖的可微分架构搜索方法，将该问题建模为分布学习问题。我们将连续松弛后的架构混合权重视为随机变量，并采用狄利克雷（Dirichlet）分布进行建模。借助近期发展的路径导数（pathwise derivatives）技术，Dirichlet分布的参数可借助基于梯度的优化器实现端到端的高效优化。该建模范式不仅提升了模型的泛化能力，还引入了固有的随机性，自然地促进了搜索空间中的探索行为。此外，为缓解可微分神经架构搜索（Differentiable NAS）带来的巨大内存开销，本文进一步提出一种简单而高效的渐进式学习策略，使得在大规模任务上直接进行搜索成为可能，从而消除了搜索阶段与评估阶段之间的差距。大量实验验证了所提方法的有效性：在CIFAR-10数据集上，移动端设置下取得2.46%的测试误差；在ImageNet数据集上，移动端设置下达到23.7%的测试误差。在NAS-Bench-201基准上，我们在全部三个数据集上均取得了当前最优结果，并为神经架构搜索算法的有效设计提供了新的洞见。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Xiangning Chen Ruochen Wang Minhao Cheng Xiaocheng Tang Cho-Jui Hsieh

摘要

本文提出了一种新颖的可微分架构搜索方法，将该问题建模为分布学习问题。我们将连续松弛后的架构混合权重视为随机变量，并采用狄利克雷（Dirichlet）分布进行建模。借助近期发展的路径导数（pathwise derivatives）技术，Dirichlet分布的参数可借助基于梯度的优化器实现端到端的高效优化。该建模范式不仅提升了模型的泛化能力，还引入了固有的随机性，自然地促进了搜索空间中的探索行为。此外，为缓解可微分神经架构搜索（Differentiable NAS）带来的巨大内存开销，本文进一步提出一种简单而高效的渐进式学习策略，使得在大规模任务上直接进行搜索成为可能，从而消除了搜索阶段与评估阶段之间的差距。大量实验验证了所提方法的有效性：在CIFAR-10数据集上，移动端设置下取得2.46%的测试误差；在ImageNet数据集上，移动端设置下达到23.7%的测试误差。在NAS-Bench-201基准上，我们在全部三个数据集上均取得了当前最优结果，并为神经架构搜索算法的有效设计提供了新的洞见。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

DrNAS：狄利克雷神经架构搜索 | 论文 | HyperAI超神经