3 个月前

合成器:重新思考Transformer模型中的自注意力机制

合成器:重新思考Transformer模型中的自注意力机制

摘要

点积自注意力机制被公认为当前先进Transformer模型的核心与不可或缺组成部分。然而,它真的必不可少吗?本文深入探究了基于点积的自注意力机制对Transformer模型性能的真实重要性与贡献。通过大量实验,我们发现:(1)随机对齐矩阵的表现出人意料地具有较强的竞争力;(2)从标记-标记(查询-键)交互中学习注意力权重虽然有一定帮助,但其实际重要性并未想象中那么关键。基于此,我们提出了一种名为\textsc{Synthesizer}的新模型,该模型通过不依赖标记间交互的方式学习合成的注意力权重。在实验中,我们首先表明,相较于原始Transformer模型,简单的Synthesizer在多种任务上均表现出极具竞争力的性能,涵盖机器翻译、语言建模、文本生成以及GLUE/SuperGLUE基准测试。当与点积注意力机制结合使用时,Synthesizer在所有测试中均持续优于标准Transformer模型。此外,我们将Synthesizer与动态卷积(Dynamic Convolutions)进行对比,结果表明,简单的随机Synthesizer不仅速度提升达60%,而且在困惑度(perplexity)上实现了相对3.5%的改进。最后,我们进一步验证,简单的因子分解型Synthesizer在仅需编码的任务中,性能甚至超越了Linformer模型。

代码仓库

10-zin/Synthesizer
pytorch
GitHub 中提及

基准测试

基准方法指标
dialogue-generation-on-persona-chat-1Synthesizer (R+V)
BLEU-1: 14.7
CIDr: 19.09
METEOR: 6.39
ROUGE-L: 14.79
document-summarization-on-cnn-daily-mailSynthesizer (R+V)
ROUGE-1: 38.57
ROUGE-2: 16.24
ROUGE-L: 35.95
linguistic-acceptability-on-cola-devSynthesizer (R+V)
Accuracy: 53.3
machine-translation-on-wmt2014-english-frenchSynthesizer (Random + Vanilla)
BLEU score: 41.85
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanSynthesizer (Random + Vanilla)
BLEU score: 28.47
Hardware Burden:
Operations per network pass:
semantic-textual-similarity-on-mrpc-devSynthesizer (R+V)
Accuracy: 91.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供