3 个月前

随机特征注意力

随机特征注意力

摘要

Transformer 是一类在多种序列建模任务中处于前沿水平的模型。其核心机制是注意力函数,该函数在每个时间步上建模输入元素之间的成对交互关系。尽管注意力机制功能强大,但由于其时间与空间复杂度随序列长度呈二次增长,因此在处理长序列时难以高效扩展。为此,我们提出 RFA(Random Feature Attention),一种具有线性时间与空间复杂度的注意力机制。RFA 采用随机特征方法对 softmax 函数进行近似,从而实现高效计算,并探索其在 Transformer 模型中的应用。RFA 可作为传统 softmax 注意力的即插即用替代方案,并通过可选的门控机制,提供一种简单有效的方式引入“近期偏好”(recency bias)的学习能力。在语言建模与机器翻译任务上的实验表明,RFA 在性能上可达到甚至超越多个强大的 Transformer 基线模型。在机器翻译实验中,RFA 的解码速度是标准 Transformer 的两倍。与现有的高效 Transformer 变体相比,RFA 在三个长文本分类数据集上同时展现出优异的准确率与效率,具有较强的竞争力。分析结果表明,RFA 在处理长序列时的效率优势尤为显著,这预示着其在需要处理大规模输入、追求快速解码速度或低内存占用的任务中将具有重要应用价值。

基准测试

基准方法指标
language-modelling-on-wikitext-103Rfa-Gate-Gaussian-Stateful (Small)
Test perplexity: 30.5
Validation perplexity: 29.4
language-modelling-on-wikitext-103Rfa-Gate-Gaussian-Stateful (Big)
Test perplexity: 23.5
Validation perplexity: 22
machine-translation-on-iwslt2014-germanRfa-Gate-arccos
BLEU score: 34.4
machine-translation-on-wmt2014-english-frenchRfa-Gate-arccos
BLEU score: 39.2
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanRfa-Gate-arccos
BLEU score: 28.2
Hardware Burden:
Operations per network pass:

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供