
摘要
Transformer已成为自然语言处理领域众多任务中一种强大的工具。推动Transformer取得优异性能的关键组件是自注意力机制(self-attention),该机制能够捕捉序列中其他标记对每个特定标记的影响或依赖关系。尽管自注意力机制效果显著,但其在输入序列长度上的二次方复杂度限制了其在长序列任务中的应用——这一问题目前仍是学术界积极研究的热点。为解决这一局限,我们提出了Nyströmformer模型,该模型在序列长度增长时表现出良好的可扩展性。我们的核心思想是将Nyström方法引入自注意力机制,以近似标准自注意力计算,从而将复杂度降低至$O(n)$。Nyströmformer的可扩展性使其能够有效处理包含数千个标记的长序列任务。我们在GLUE基准和IMDB评论数据集上的多个下游任务中进行了评估,采用标准序列长度,结果表明,Nyströmformer的性能与标准自注意力机制相当,甚至在部分任务中表现略优。在Long Range Arena(LRA)基准的长序列任务中,Nyströmformer相较于其他高效的自注意力方法也展现出更优或相当的性能表现。相关代码已开源,可通过以下链接获取:https://github.com/mlpen/Nystromformer。
代码仓库
mlpen/Nystromformer
官方
pytorch
nellish123/contrib
mindspore
lucidrains/nystrom-attention
pytorch
GitHub 中提及
yxzwang/normalized-information-payload
pytorch
GitHub 中提及
Rishit-dagli/Nystromformer
tf
GitHub 中提及
JeremyZhao1998/Nystromformer-Paddle
paddle
GitHub 中提及
facebookresearch/xformers
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-inference-on-qnli | Nyströmformer | Accuracy: 88.7% |
| semantic-textual-similarity-on-mrpc | Nyströmformer | F1: 88.1% |
| sentiment-analysis-on-imdb | Nyströmformer | Accuracy: 93.2 |
| sentiment-analysis-on-sst-2-binary | Nyströmformer | Accuracy: 91.4 |