HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer 模型中的放松注意力机制

Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt

摘要

全注意力机制的 Transformer 架构(transformer architectures)强大的建模能力常常导致过拟合,尤其是在自然语言处理任务中,自回归 Transformer 解码器(autoregressive transformer decoder)会隐式地学习一个内部语言模型,这使得外部语言模型的集成变得复杂。在本文中,我们探讨了一种称为松弛注意力(relaxed attention)的技术,这是一种简单且易于实现的注意力权重平滑方法,对通用 Transformer 架构带来了两方面的改进:首先,在编码器的自注意力层(self-attention layers)中应用松弛注意力可以提供正则化效果;其次,我们证明了它通过放松解码器中的交叉注意力(cross attention),自然地支持外部语言模型的集成,从而抑制了隐式学习到的内部语言模型。我们在多个任务上展示了松弛注意力的优势,并结合最近的基准方法取得了显著的改进。具体而言,在最大的公开唇读数据集LRS3基准测试中,我们将之前的最佳性能从26.90%的词错误率降低到了26.31%;此外,在IWSLT14德语到英语(DE→EN)机器翻译任务中,我们在没有使用外部语言模型且几乎不增加额外模型参数的情况下,达到了37.67的最佳BLEU分数。本文所使用的代码和模型将对外公开。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Transformer 模型中的放松注意力机制 | 论文 | HyperAI超神经