
摘要
近期的研究强调了Transformer架构在序列任务中的强大性能,同时神经架构搜索(Neural Architecture Search, NAS)也开始超越人类设计的模型。我们的目标是应用NAS来寻找比Transformer更好的替代方案。我们首先构建了一个大型搜索空间,该空间受到最近前馈序列模型进展的启发,然后通过预热启动(warm starting)的方法运行进化架构搜索,即以Transformer作为初始种群的种子。为了直接在计算成本高昂的WMT 2014英德翻译任务上进行搜索,我们开发了渐进动态障碍方法(Progressive Dynamic Hurdles),该方法允许我们将更多资源动态分配给更有潜力的候选模型。在实验中发现的架构——进化Transformer(Evolved Transformer)——在四个知名的语言任务上表现出了一致的改进:WMT 2014英德、WMT 2014英法、WMT 2014英捷和LM1B。在大模型规模下,进化Transformer在WMT 2014英德任务上取得了新的最佳BLEU分数29.8;而在较小规模下,它以减少37.6%参数的数量达到了与原始“大”Transformer相同的质量,并且在适合移动设备的7M参数模型规模下,其BLEU分数比Transformer高出0.7。
代码仓库
nazarov-yuriy/zh-ru-shared-task
tf
GitHub 中提及
tensorflow/tensor2tensor
官方
tf
GitHub 中提及
moon23k/Transformer_Archs
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-one-billion-word | Evolved Transformer Big | PPL: 28.6 |
| machine-translation-on-wmt2014-english-czech | Evolved Transformer Base | BLEU score: 27.6 |
| machine-translation-on-wmt2014-english-czech | Evolved Transformer Big | BLEU score: 28.2 |
| machine-translation-on-wmt2014-english-french | Evolved Transformer Big | BLEU score: 41.3 |
| machine-translation-on-wmt2014-english-french | Evolved Transformer Base | BLEU score: 40.6 |
| machine-translation-on-wmt2014-english-german | Evolved Transformer Big | BLEU score: 29.8 Number of Params: 218M SacreBLEU: 29.2 |
| machine-translation-on-wmt2014-english-german | Evolved Transformer Base | BLEU score: 28.4 Hardware Burden: 2488G |