4 个月前

Transformer 模型中的放松注意力机制

Transformer 模型中的放松注意力机制

摘要

全注意力机制的变压器架构(transformer architectures)强大的建模能力常常导致过拟合,尤其是在自然语言处理任务中,自回归变压器解码器(autoregressive transformer decoder)会隐式地学习一个内部语言模型,这使得外部语言模型的集成变得复杂。在本文中,我们探讨了一种称为松弛注意力(relaxed attention)的技术,这是一种简单且易于实现的注意力权重平滑方法,对通用变压器架构带来了两方面的改进:首先,在编码器的自注意力层(self-attention layers)中应用松弛注意力可以提供正则化效果;其次,我们证明了它通过放松解码器中的交叉注意力(cross attention),自然地支持外部语言模型的集成,从而抑制了隐式学习到的内部语言模型。我们在多个任务上展示了松弛注意力的优势,并结合最近的基准方法取得了显著的改进。具体而言,在最大的公开唇读数据集LRS3基准测试中,我们将之前的最佳性能从26.90%的词错误率降低到了26.31%;此外,在IWSLT14德语到英语(DE→EN)机器翻译任务中,我们在没有使用外部语言模型且几乎不增加额外模型参数的情况下,达到了37.67的最佳BLEU分数。本文所使用的代码和模型将对外公开。

基准测试

基准方法指标
lipreading-on-lrs3-tedAV-HuBERT Large + Relaxed Attention + LM
Word Error Rate (WER): 25.51
machine-translation-on-iwslt2014-germanCutoff + Relaxed Attention + LM
BLEU score: 37.96
Number of Params: 24.1M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Transformer 模型中的放松注意力机制 | 论文 | HyperAI超神经