4 个月前

进化变压器

进化变压器

摘要

近期的研究强调了Transformer架构在序列任务中的强大性能,同时神经架构搜索(Neural Architecture Search, NAS)也开始超越人类设计的模型。我们的目标是应用NAS来寻找比Transformer更好的替代方案。我们首先构建了一个大型搜索空间,该空间受到最近前馈序列模型进展的启发,然后通过预热启动(warm starting)的方法运行进化架构搜索,即以Transformer作为初始种群的种子。为了直接在计算成本高昂的WMT 2014英德翻译任务上进行搜索,我们开发了渐进动态障碍方法(Progressive Dynamic Hurdles),该方法允许我们将更多资源动态分配给更有潜力的候选模型。在实验中发现的架构——进化Transformer(Evolved Transformer)——在四个知名的语言任务上表现出了一致的改进:WMT 2014英德、WMT 2014英法、WMT 2014英捷和LM1B。在大模型规模下,进化Transformer在WMT 2014英德任务上取得了新的最佳BLEU分数29.8;而在较小规模下,它以减少37.6%参数的数量达到了与原始“大”Transformer相同的质量,并且在适合移动设备的7M参数模型规模下,其BLEU分数比Transformer高出0.7。

代码仓库

tensorflow/tensor2tensor
官方
tf
GitHub 中提及
moon23k/Transformer_Archs
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-one-billion-wordEvolved Transformer Big
PPL: 28.6
machine-translation-on-wmt2014-english-czechEvolved Transformer Base
BLEU score: 27.6
machine-translation-on-wmt2014-english-czechEvolved Transformer Big
BLEU score: 28.2
machine-translation-on-wmt2014-english-frenchEvolved Transformer Big
BLEU score: 41.3
machine-translation-on-wmt2014-english-frenchEvolved Transformer Base
BLEU score: 40.6
machine-translation-on-wmt2014-english-germanEvolved Transformer Big
BLEU score: 29.8
Number of Params: 218M
SacreBLEU: 29.2
machine-translation-on-wmt2014-english-germanEvolved Transformer Base
BLEU score: 28.4
Hardware Burden: 2488G

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
进化变压器 | 论文 | HyperAI超神经