
摘要
基于Transformer的模型由于其自注意力机制的计算复杂度随序列长度呈二次方增长,难以处理长序列。为解决这一限制,我们提出了Longformer,其注意力机制的计算复杂度与序列长度呈线性关系,从而能够高效处理包含数千个标记甚至更长的文档。Longformer的注意力机制可直接替代标准自注意力机制,结合了局部窗口注意力与任务驱动的全局注意力。在延续先前长序列Transformer研究的基础上,我们在字符级语言建模任务上对Longformer进行了评估,在text8和enwik8数据集上取得了当前最优性能。与多数先前工作不同,我们还对Longformer进行了预训练,并在多种下游任务上进行微调。实验结果表明,预训练的Longformer在长文档任务中持续优于RoBERTa,并在WikiHop和TriviaQA任务上刷新了当前最优性能记录。最后,我们提出了Longformer-Encoder-Decoder(LED)——一种适用于长文档生成式序列到序列任务的Longformer变体,并在arXiv摘要生成数据集上验证了其有效性。
代码仓库
mim-solutions/bert_for_longer_texts
pytorch
GitHub 中提及
microsoft/dialoglm
pytorch
GitHub 中提及
lucashueda/long_sentence_transformer
pytorch
GitHub 中提及
amoramine/Pegasus_with_Longformer_summarization
pytorch
GitHub 中提及
mistralai/mistral-src
pytorch
GitHub 中提及
2023-MindSpore-1/ms-code-155
mindspore
kit-mrt/red-motion
pytorch
GitHub 中提及
amoramine/Pegasus_Longformer_summarization
pytorch
GitHub 中提及
jaketae/pytorch-malware-detection
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
allenai/longformer
官方
pytorch
GitHub 中提及
amazon-science/efficient-longdoc-classification
pytorch
GitHub 中提及
schenliu/longformer-chinese
pytorch
GitHub 中提及
han-shi/SparseBERT
pytorch
GitHub 中提及
naver-ai/simseek
pytorch
GitHub 中提及
kit-mrt/road-barlow-twins
pytorch
GitHub 中提及
Phrase-in-Context/eval
pytorch
GitHub 中提及
facebookresearch/xformers
pytorch
GitHub 中提及
2023-MindSpore-1/ms-code-161
mindspore
a-rios/ats-models
pytorch
GitHub 中提及
mim-solutions/roberta_for_longer_texts
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-enwiki8 | Longformer (12 layers, h=512) | Bit per Character (BPC): 1.00 Number of params: 41M |
| language-modelling-on-enwiki8 | Longformer (30 layers, h=512) | Bit per Character (BPC): 0.99 Number of params: 102M |
| language-modelling-on-hutter-prize | Longformer Small | Bit per Character (BPC): 1.00 Number of params: 41M |
| language-modelling-on-hutter-prize | Longformer Large | Bit per Character (BPC): 0.99 Number of params: 102M |
| question-answering-on-wikihop | Longformer-large | Test: 81.9 |