3 个月前

Nyströmformer:一种基于Nyström的自注意力近似算法

Nyströmformer:一种基于Nyström的自注意力近似算法

摘要

Transformer已成为自然语言处理领域众多任务中一种强大的工具。推动Transformer取得优异性能的关键组件是自注意力机制(self-attention),该机制能够捕捉序列中其他标记对每个特定标记的影响或依赖关系。尽管自注意力机制效果显著,但其在输入序列长度上的二次方复杂度限制了其在长序列任务中的应用——这一问题目前仍是学术界积极研究的热点。为解决这一局限,我们提出了Nyströmformer模型,该模型在序列长度增长时表现出良好的可扩展性。我们的核心思想是将Nyström方法引入自注意力机制,以近似标准自注意力计算,从而将复杂度降低至$O(n)$。Nyströmformer的可扩展性使其能够有效处理包含数千个标记的长序列任务。我们在GLUE基准和IMDB评论数据集上的多个下游任务中进行了评估,采用标准序列长度,结果表明,Nyströmformer的性能与标准自注意力机制相当,甚至在部分任务中表现略优。在Long Range Arena(LRA)基准的长序列任务中,Nyströmformer相较于其他高效的自注意力方法也展现出更优或相当的性能表现。相关代码已开源,可通过以下链接获取:https://github.com/mlpen/Nystromformer。

基准测试

基准方法指标
natural-language-inference-on-qnliNyströmformer
Accuracy: 88.7%
semantic-textual-similarity-on-mrpcNyströmformer
F1: 88.1%
sentiment-analysis-on-imdbNyströmformer
Accuracy: 93.2
sentiment-analysis-on-sst-2-binaryNyströmformer
Accuracy: 91.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Nyströmformer:一种基于Nyström的自注意力近似算法 | 论文 | HyperAI超神经