6 个月前

自然语言处理

Maor Ivgi Uri Shaham Jonathan Berant

摘要

基于Transformer的预训练语言模型（LM）在自然语言理解任务中已广泛应用，但由于其复杂度呈二次增长，难以处理长序列文本，如故事、科学论文和长文档。尽管已有大量高效的Transformer变体被提出，但这些方法通常依赖于定制化实现，需从头开始进行昂贵的预训练。本文提出SLED（Sliding-Encoder and Decoder）——一种用于处理长序列的简单高效方法，该方法复用并充分利用经过充分验证的短文本预训练语言模型。具体而言，我们将输入序列划分为重叠的块，使用短文本预训练语言模型的编码器分别对每个块进行编码，并利用预训练的解码器在块之间融合信息（即“解码器融合”）。通过受控实验，我们验证了SLED在长文本理解任务中具有可行性。我们在SCROLLS这一基准数据集上评估了该方法，该数据集涵盖七项跨多种语言理解任务的数据集。实验结果表明，SLED在性能上可与规模高达其50倍、且需专门且昂贵预训练过程的专用模型相媲美。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Maor Ivgi Uri Shaham Jonathan Berant

摘要

基于Transformer的预训练语言模型（LM）在自然语言理解任务中已广泛应用，但由于其复杂度呈二次增长，难以处理长序列文本，如故事、科学论文和长文档。尽管已有大量高效的Transformer变体被提出，但这些方法通常依赖于定制化实现，需从头开始进行昂贵的预训练。本文提出SLED（Sliding-Encoder and Decoder）——一种用于处理长序列的简单高效方法，该方法复用并充分利用经过充分验证的短文本预训练语言模型。具体而言，我们将输入序列划分为重叠的块，使用短文本预训练语言模型的编码器分别对每个块进行编码，并利用预训练的解码器在块之间融合信息（即“解码器融合”）。通过受控实验，我们验证了SLED在长文本理解任务中具有可行性。我们在SCROLLS这一基准数据集上评估了该方法，该数据集涵盖七项跨多种语言理解任务的数据集。实验结果表明，SLED在性能上可与规模高达其50倍、且需专门且昂贵预训练过程的专用模型相媲美。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供