4 个月前

使用轻量级和动态卷积减少注意力机制的计算开销

使用轻量级和动态卷积减少注意力机制的计算开销

摘要

自注意力机制是构建语言和图像生成模型的一种有效方法。它通过将每个上下文元素与当前时间步进行比较来确定其重要性。在本文中,我们展示了一个非常轻量级的卷积可以与已报道的最佳自注意力结果相媲美。接下来,我们引入了动态卷积,该方法比自注意力机制更为简单且高效。我们仅根据当前时间步预测不同的卷积核,以确定上下文元素的重要性。这种方法所需的计算量随输入长度线性增长,而自注意力机制则呈二次增长。在大规模机器翻译、语言建模和抽象摘要生成实验中,动态卷积的表现优于强大的自注意力模型。在WMT'14英德测试集上,动态卷积达到了29.7 BLEU的新纪录。

代码仓库

pytorch/fairseq
官方
pytorch
bytedance/neurst
tf
GitHub 中提及
dqqcasia/st
tf
GitHub 中提及

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-dailyDynamic Conv
ROUGE-1: 39.84
ROUGE-2: 16.25
ROUGE-L: 36.73
document-summarization-on-cnn-daily-mailDynamicConv
ROUGE-1: 39.84
ROUGE-2: 16.25
ROUGE-L: 36.73
document-summarization-on-cnn-daily-mailLightConv
ROUGE-1: 39.52
ROUGE-2: 15.97
ROUGE-L: 36.51
language-modelling-on-one-billion-wordDynamicConv
Number of params: 0.34B
PPL: 26.67
machine-translation-on-iwslt2014-germanLightConv
BLEU score: 34.8
machine-translation-on-iwslt2014-germanDynamicConv
BLEU score: 35.2
machine-translation-on-wmt-2017-english-1DynamicConv
BLEU score: 24.4
machine-translation-on-wmt-2017-english-1LightConv
BLEU score: 24.3
machine-translation-on-wmt2014-english-frenchLightConv
BLEU score: 43.1
machine-translation-on-wmt2014-english-frenchDynamicConv
BLEU score: 43.2
machine-translation-on-wmt2014-english-germanLightConv
BLEU score: 28.9
Number of Params: 202M
machine-translation-on-wmt2014-english-germanDynamicConv
BLEU score: 29.7
Number of Params: 213M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用轻量级和动态卷积减少注意力机制的计算开销 | 论文 | HyperAI超神经