6 个月前

自然语言处理

Iz Beltagy Matthew E. Peters Arman Cohan

摘要

基于Transformer的模型由于其自注意力机制的计算复杂度随序列长度呈二次方增长，难以处理长序列。为解决这一限制，我们提出了Longformer，其注意力机制的计算复杂度与序列长度呈线性关系，从而能够高效处理包含数千个标记甚至更长的文档。Longformer的注意力机制可直接替代标准自注意力机制，结合了局部窗口注意力与任务驱动的全局注意力。在延续先前长序列Transformer研究的基础上，我们在字符级语言建模任务上对Longformer进行了评估，在text8和enwik8数据集上取得了当前最优性能。与多数先前工作不同，我们还对Longformer进行了预训练，并在多种下游任务上进行微调。实验结果表明，预训练的Longformer在长文档任务中持续优于RoBERTa，并在WikiHop和TriviaQA任务上刷新了当前最优性能记录。最后，我们提出了Longformer-Encoder-Decoder（LED）——一种适用于长文档生成式序列到序列任务的Longformer变体，并在arXiv摘要生成数据集上验证了其有效性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Iz Beltagy Matthew E. Peters Arman Cohan

摘要

基于Transformer的模型由于其自注意力机制的计算复杂度随序列长度呈二次方增长，难以处理长序列。为解决这一限制，我们提出了Longformer，其注意力机制的计算复杂度与序列长度呈线性关系，从而能够高效处理包含数千个标记甚至更长的文档。Longformer的注意力机制可直接替代标准自注意力机制，结合了局部窗口注意力与任务驱动的全局注意力。在延续先前长序列Transformer研究的基础上，我们在字符级语言建模任务上对Longformer进行了评估，在text8和enwik8数据集上取得了当前最优性能。与多数先前工作不同，我们还对Longformer进行了预训练，并在多种下游任务上进行微调。实验结果表明，预训练的Longformer在长文档任务中持续优于RoBERTa，并在WikiHop和TriviaQA任务上刷新了当前最优性能记录。最后，我们提出了Longformer-Encoder-Decoder（LED）——一种适用于长文档生成式序列到序列任务的Longformer变体，并在arXiv摘要生成数据集上验证了其有效性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供