3 个月前

使用短文本模型实现高效的长文本理解

使用短文本模型实现高效的长文本理解

摘要

基于Transformer的预训练语言模型(LM)在自然语言理解任务中已广泛应用,但由于其复杂度呈二次增长,难以处理长序列文本,如故事、科学论文和长文档。尽管已有大量高效的Transformer变体被提出,但这些方法通常依赖于定制化实现,需从头开始进行昂贵的预训练。本文提出SLED(Sliding-Encoder and Decoder)——一种用于处理长序列的简单高效方法,该方法复用并充分利用经过充分验证的短文本预训练语言模型。具体而言,我们将输入序列划分为重叠的块,使用短文本预训练语言模型的编码器分别对每个块进行编码,并利用预训练的解码器在块之间融合信息(即“解码器融合”)。通过受控实验,我们验证了SLED在长文本理解任务中具有可行性。我们在SCROLLS这一基准数据集上评估了该方法,该数据集涵盖七项跨多种语言理解任务的数据集。实验结果表明,SLED在性能上可与规模高达其50倍、且需专门且昂贵预训练过程的专用模型相媲美。

代码仓库

mivg/sled
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-range-modeling-on-scrollsBART-large SLED
Avg.: 37.99
CNLI: 87.3
GovRep: 57.5 / 26.3 / 27.4
Nrtv: 24.1
QALT EM-T/H: 34.8 / 34.8
QMSum: 34.2 / 11.0 / 22.0
Qspr: 46.9
SumScr: 35.2 / 8.7 / 19.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用短文本模型实现高效的长文本理解 | 论文 | HyperAI超神经