3 个月前

Longformer:长文档Transformer

Longformer:长文档Transformer

摘要

基于Transformer的模型由于其自注意力机制的计算复杂度随序列长度呈二次方增长,难以处理长序列。为解决这一限制,我们提出了Longformer,其注意力机制的计算复杂度与序列长度呈线性关系,从而能够高效处理包含数千个标记甚至更长的文档。Longformer的注意力机制可直接替代标准自注意力机制,结合了局部窗口注意力与任务驱动的全局注意力。在延续先前长序列Transformer研究的基础上,我们在字符级语言建模任务上对Longformer进行了评估,在text8和enwik8数据集上取得了当前最优性能。与多数先前工作不同,我们还对Longformer进行了预训练,并在多种下游任务上进行微调。实验结果表明,预训练的Longformer在长文档任务中持续优于RoBERTa,并在WikiHop和TriviaQA任务上刷新了当前最优性能记录。最后,我们提出了Longformer-Encoder-Decoder(LED)——一种适用于长文档生成式序列到序列任务的Longformer变体,并在arXiv摘要生成数据集上验证了其有效性。

代码仓库

microsoft/dialoglm
pytorch
GitHub 中提及
mistralai/mistral-src
pytorch
GitHub 中提及
kit-mrt/red-motion
pytorch
GitHub 中提及
jaketae/pytorch-malware-detection
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
allenai/longformer
官方
pytorch
GitHub 中提及
schenliu/longformer-chinese
pytorch
GitHub 中提及
han-shi/SparseBERT
pytorch
GitHub 中提及
naver-ai/simseek
pytorch
GitHub 中提及
kit-mrt/road-barlow-twins
pytorch
GitHub 中提及
Phrase-in-Context/eval
pytorch
GitHub 中提及
facebookresearch/xformers
pytorch
GitHub 中提及
a-rios/ats-models
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-enwiki8Longformer (12 layers, h=512)
Bit per Character (BPC): 1.00
Number of params: 41M
language-modelling-on-enwiki8Longformer (30 layers, h=512)
Bit per Character (BPC): 0.99
Number of params: 102M
language-modelling-on-hutter-prizeLongformer Small
Bit per Character (BPC): 1.00
Number of params: 41M
language-modelling-on-hutter-prizeLongformer Large
Bit per Character (BPC): 0.99
Number of params: 102M
question-answering-on-wikihopLongformer-large
Test: 81.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Longformer:长文档Transformer | 论文 | HyperAI超神经