7 个月前

摘要

近期的研究强调了Transformer架构在序列任务中的强大性能，同时神经架构搜索（Neural Architecture Search, NAS）也开始超越人类设计的模型。我们的目标是应用NAS来寻找比Transformer更好的替代方案。我们首先构建了一个大型搜索空间，该空间受到最近前馈序列模型进展的启发，然后通过预热启动（warm starting）的方法运行进化架构搜索，即以Transformer作为初始种群的种子。为了直接在计算成本高昂的WMT 2014英德翻译任务上进行搜索，我们开发了渐进动态障碍方法（Progressive Dynamic Hurdles），该方法允许我们将更多资源动态分配给更有潜力的候选模型。在实验中发现的架构——进化Transformer（Evolved Transformer）——在四个知名的语言任务上表现出了一致的改进：WMT 2014英德、WMT 2014英法、WMT 2014英捷和LM1B。在大模型规模下，进化Transformer在WMT 2014英德任务上取得了新的最佳BLEU分数29.8；而在较小规模下，它以减少37.6%参数的数量达到了与原始“大”Transformer相同的质量，并且在适合移动设备的7M参数模型规模下，其BLEU分数比Transformer高出0.7。

源 PDF