3 个月前

CATE:基于Transformer的计算感知神经架构编码

CATE:基于Transformer的计算感知神经架构编码

摘要

近期研究(White 等,2020a;Yan 等,2020)揭示了神经架构搜索(Neural Architecture Search, NAS)中架构编码的重要性。这些编码用于表征神经架构的结构信息或计算信息。相较于结构感知型编码,计算感知型编码能够将具有相似性能的架构映射至相近区域,从而提升下游架构搜索的效率(Zhang 等,2019;White 等,2020a)。在本工作中,我们提出一种基于 Transformer 的计算感知编码方法——CATE(Computation-Aware Transformer-based Encoding)。与现有基于固定变换(如路径编码)的计算感知编码不同,CATE 采用成对预训练策略,利用具备交叉注意力机制的 Transformer 模型学习计算感知编码,所获得的编码能够蕴含神经架构中密集且上下文相关的计算信息。我们在小型和大型搜索空间下,针对三种主要依赖编码的 NAS 子流程,将 CATE 与十一种现有编码方法进行了对比实验。实验结果表明,CATE 显著提升了下游搜索性能,尤其在大规模搜索空间中优势更为突出。此外,跨搜索空间的实验进一步验证了 CATE 在训练以外搜索空间中仍具备优异的泛化能力。相关代码已开源,地址为:https://github.com/MSU-MLSys-Lab/CATE。

代码仓库

MSU-MLSys-Lab/CATE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
architecture-search-on-cifar-10-imageCATE
Params: 4.1
Percentage error: 2.46
Search Time (GPU days): 10.3
neural-architecture-search-on-cifar-10CATE
Parameters: 4.1
Search Time (GPU days): 10.3
Top-1 Error Rate: 2.46%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CATE:基于Transformer的计算感知神经架构编码 | 论文 | HyperAI超神经