3 个月前

高效扩展Transformer模型以实现长输入摘要

高效扩展Transformer模型以实现长输入摘要

摘要

尽管大规模预训练的Transformer模型在自然语言处理任务中表现出色,但处理长序列输入仍是重大挑战。其中一项典型任务是长输入摘要生成,即输入长度超过大多数预训练模型的最大上下文窗口。通过一系列广泛的实验,我们系统研究了哪些模型架构改进与预训练范式能够最高效地将预训练Transformer适配于长输入摘要任务。研究发现,采用分段式、块内局部注意力机制并引入全局编码器标记(global encoder tokens)的Transformer架构,在性能与效率之间取得了良好平衡;此外,在长序列上增加一个额外的预训练阶段,能显著提升下游摘要任务的表现。基于上述发现,我们提出了PEGASUS-X,这是对PEGASUS模型的扩展,通过引入针对长输入的额外预训练,使其能够处理最长达16K标记(tokens)的输入。PEGASUS-X在长输入摘要任务上取得了与更大模型相当的优异性能,同时仅增加少量参数,且无需模型并行即可训练。

基准测试

基准方法指标
long-range-modeling-on-scrollsPEGASUS-X-Base
GovRep: 59.3 / 29.3 / 30.9
QMSum: 32.9 / 9.8 / 21.4
SumScr: 35.0 / 8.9 / 20.4
long-range-modeling-on-scrollsPEGASUS-X
GovRep: 60.3 / 30.0 / 31.5
QMSum: 33.2 / 9.6 / 21.6
SumScr: 35.7 / 9.1 / 20.6
text-summarization-on-arxivPegasus-X
ROUGE-1: 50.0
ROUGE-2: 21.8
ROUGE-L: 44.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高效扩展Transformer模型以实现长输入摘要 | 论文 | HyperAI超神经