6 个月前

自然语言处理

自然语言处理

Jason Phang Yao Zhao Peter J. Liu

摘要

尽管大规模预训练的Transformer模型在自然语言处理任务中表现出色，但处理长序列输入仍是重大挑战。其中一项典型任务是长输入摘要生成，即输入长度超过大多数预训练模型的最大上下文窗口。通过一系列广泛的实验，我们系统研究了哪些模型架构改进与预训练范式能够最高效地将预训练Transformer适配于长输入摘要任务。研究发现，采用分段式、块内局部注意力机制并引入全局编码器标记（global encoder tokens）的Transformer架构，在性能与效率之间取得了良好平衡；此外，在长序列上增加一个额外的预训练阶段，能显著提升下游摘要任务的表现。基于上述发现，我们提出了PEGASUS-X，这是对PEGASUS模型的扩展，通过引入针对长输入的额外预训练，使其能够处理最长达16K标记（tokens）的输入。PEGASUS-X在长输入摘要任务上取得了与更大模型相当的优异性能，同时仅增加少量参数，且无需模型并行即可训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Jason Phang Yao Zhao Peter J. Liu

摘要

尽管大规模预训练的Transformer模型在自然语言处理任务中表现出色，但处理长序列输入仍是重大挑战。其中一项典型任务是长输入摘要生成，即输入长度超过大多数预训练模型的最大上下文窗口。通过一系列广泛的实验，我们系统研究了哪些模型架构改进与预训练范式能够最高效地将预训练Transformer适配于长输入摘要任务。研究发现，采用分段式、块内局部注意力机制并引入全局编码器标记（global encoder tokens）的Transformer架构，在性能与效率之间取得了良好平衡；此外，在长序列上增加一个额外的预训练阶段，能显著提升下游摘要任务的表现。基于上述发现，我们提出了PEGASUS-X，这是对PEGASUS模型的扩展，通过引入针对长输入的额外预训练，使其能够处理最长达16K标记（tokens）的输入。PEGASUS-X在长输入摘要任务上取得了与更大模型相当的优异性能，同时仅增加少量参数，且无需模型并行即可训练。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

高效扩展Transformer模型以实现长输入摘要 | 论文 | HyperAI超神经