3 个月前

Fastformer:加性注意力可能已足够

Fastformer:加性注意力可能已足够

摘要

Transformer 是一种强大的文本理解模型,但其计算复杂度随输入序列长度呈二次增长,导致效率较低。尽管已有多种加速 Transformer 的方法,但在处理长序列时仍存在效率不足或效果有限的问题。本文提出 Fastformer,一种基于加性注意力机制的高效 Transformer 模型。在 Fastformer 中,不再显式建模 token 之间的成对交互,而是首先利用加性注意力机制捕捉全局上下文信息,随后基于每个 token 与全局上下文表示的交互,进一步优化其自身表示。该设计使 Fastformer 在保持高效的同时,实现了线性时间复杂度的上下文建模。在五个数据集上的大量实验表明,Fastformer 相比多种现有 Transformer 模型具有显著更高的效率,同时在长文本建模任务中仍能实现相当甚至更优的性能。

基准测试

基准方法指标
text-summarization-on-cnn-daily-mail-2Fastformer
ROUGE-1: 38.54
ROUGE-2: 16.22
ROUGE-L: 36.21
text-summarization-on-pubmed-1Fastformer
ROUGE-1: 38.09
ROUGE-2: 15.44
ROUGE-L: 34.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Fastformer:加性注意力可能已足够 | 论文 | HyperAI超神经