3 个月前

无需流泪的Transformer:改进自注意力机制的归一化方法

无需流泪的Transformer:改进自注意力机制的归一化方法

摘要

我们评估了三种以归一化为核心的简单改进方法,以提升Transformer的训练效果。首先,我们表明,采用预归一化残差连接(PreNorm)并配合较小的初始化策略,可实现无需预热(warmup-free)、基于验证集的训练,并支持较大的学习率。其次,我们提出一种仅含单个缩放参数的ℓ₂归一化方法(ScaleNorm),该方法能够加速训练过程并提升模型性能。最后,我们再次验证了将词嵌入归一化为固定长度(FixNorm)的有效性。在基于TED Talks语料库的五个低资源翻译任务上,上述改进均能保证模型稳定收敛,平均相比当前最优的双语基线模型提升1.1 BLEU,且在IWSLT'15英语-越南语任务上创下32.8的新高BLEU得分。我们观察到,模型性能曲线更为陡峭,梯度范数更加稳定,并且激活值的缩放与解码器深度之间呈现出线性关系。令人意外的是,在高资源场景(WMT'14英语-德语)下,ScaleNorm与FixNorm仍保持竞争力,而PreNorm则导致性能下降。

基准测试

基准方法指标
machine-translation-on-iwslt2015-english-1Transformer+BPE+FixNorm+ScaleNorm
BLEU: 32.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无需流泪的Transformer:改进自注意力机制的归一化方法 | 论文 | HyperAI超神经