
摘要
自注意力机制是构建语言和图像生成模型的一种有效方法。它通过将每个上下文元素与当前时间步进行比较来确定其重要性。在本文中,我们展示了一个非常轻量级的卷积可以与已报道的最佳自注意力结果相媲美。接下来,我们引入了动态卷积,该方法比自注意力机制更为简单且高效。我们仅根据当前时间步预测不同的卷积核,以确定上下文元素的重要性。这种方法所需的计算量随输入长度线性增长,而自注意力机制则呈二次增长。在大规模机器翻译、语言建模和抽象摘要生成实验中,动态卷积的表现优于强大的自注意力模型。在WMT'14英德测试集上,动态卷积达到了29.7 BLEU的新纪录。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abstractive-text-summarization-on-cnn-daily | Dynamic Conv | ROUGE-1: 39.84 ROUGE-2: 16.25 ROUGE-L: 36.73 |
| document-summarization-on-cnn-daily-mail | DynamicConv | ROUGE-1: 39.84 ROUGE-2: 16.25 ROUGE-L: 36.73 |
| document-summarization-on-cnn-daily-mail | LightConv | ROUGE-1: 39.52 ROUGE-2: 15.97 ROUGE-L: 36.51 |
| language-modelling-on-one-billion-word | DynamicConv | Number of params: 0.34B PPL: 26.67 |
| machine-translation-on-iwslt2014-german | LightConv | BLEU score: 34.8 |
| machine-translation-on-iwslt2014-german | DynamicConv | BLEU score: 35.2 |
| machine-translation-on-wmt-2017-english-1 | DynamicConv | BLEU score: 24.4 |
| machine-translation-on-wmt-2017-english-1 | LightConv | BLEU score: 24.3 |
| machine-translation-on-wmt2014-english-french | LightConv | BLEU score: 43.1 |
| machine-translation-on-wmt2014-english-french | DynamicConv | BLEU score: 43.2 |
| machine-translation-on-wmt2014-english-german | LightConv | BLEU score: 28.9 Number of Params: 202M |
| machine-translation-on-wmt2014-english-german | DynamicConv | BLEU score: 29.7 Number of Params: 213M |