
摘要
近期研究表明,Transformer模型中的注意力头并非均等有效。我们发现这一现象与多头注意力机制在训练过程中的不平衡性以及模型对特定注意力头的依赖性密切相关。为解决该问题,我们提出一种简洁的掩码方法——HeadMask,该方法从两个具体方面进行实现。实验结果表明,该方法在多个语言对的机器翻译任务中均取得了性能提升。后续的实证分析进一步支持了我们的假设,并验证了该方法的有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-iwslt2015-vietnamese | HeadMask (Random-18) | BLEU: 26.85 |
| machine-translation-on-iwslt2015-vietnamese | HeadMask (Impt-18) | BLEU: 26.36 |
| machine-translation-on-wmt2016-romanian | HeadMask (Random-18) | BLEU score: 32.85 |
| machine-translation-on-wmt2016-romanian | HeadMask (Impt-18) | BLEU score: 32.95 |
| machine-translation-on-wmt2017-turkish | HeadMask (Impt-18) | BLEU score: 17.48 |
| machine-translation-on-wmt2017-turkish | HeadMask (Random-18) | BLEU score: 17.56 |