8 个月前

摘要

全注意力机制的 Transformer 架构（transformer architectures）强大的建模能力常常导致过拟合，尤其是在自然语言处理任务中，自回归 Transformer 解码器（autoregressive transformer decoder）会隐式地学习一个内部语言模型，这使得外部语言模型的集成变得复杂。在本文中，我们探讨了一种称为松弛注意力（relaxed attention）的技术，这是一种简单且易于实现的注意力权重平滑方法，对通用 Transformer 架构带来了两方面的改进：首先，在编码器的自注意力层（self-attention layers）中应用松弛注意力可以提供正则化效果；其次，我们证明了它通过放松解码器中的交叉注意力（cross attention），自然地支持外部语言模型的集成，从而抑制了隐式学习到的内部语言模型。我们在多个任务上展示了松弛注意力的优势，并结合最近的基准方法取得了显著的改进。具体而言，在最大的公开唇读数据集LRS3基准测试中，我们将之前的最佳性能从26.90%的词错误率降低到了26.31%；此外，在IWSLT14德语到英语（DE→EN）机器翻译任务中，我们在没有使用外部语言模型且几乎不增加额外模型参数的情况下，达到了37.67的最佳BLEU分数。本文所使用的代码和模型将对外公开。

源 PDF