3 个月前

预训练文本到文本模型在长文本序列上的适应

预训练文本到文本模型在长文本序列上的适应

摘要

我们提出了一项关于如何将现有预训练文本到文本模型适配于长序列输入的实证研究。通过在预训练流程的三个关键维度——模型架构、优化目标与预训练语料库——上进行系统性探索,我们提出了一种有效的方法,可基于现有的短上下文模型构建长上下文模型。具体而言,我们用池化增强的分块注意力(pooling-augmented blockwise attention)替代Transformer中的全注意力机制,并采用一种掩码跨度预测任务(masked-span prediction task)进行预训练,其中跨度长度具有多样性。在预训练语料的选择方面,我们发现:从大规模开放域语料库中随机拼接短文档,其性能优于使用现有长文档语料库,后者通常在领域覆盖范围上存在局限。基于上述发现,我们构建了一个长上下文模型,在长文本问答任务上表现出具有竞争力的性能,并在五个长文本摘要数据集上达到了新的最先进水平,其表现常优于参数规模更大的先前方法。相关代码已开源,地址为:https://github.com/facebookresearch/bart_ls。

代码仓库

facebookresearch/bart_ls
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-range-modeling-on-scrollsBART-LS
Avg.: 39.76
CNLI: 87.1
GovRep: 59.4 / 29.8 / 30.8
Nrtv: 26.2
QALT EM-T/H: 37.8 / 34.0
QMSum: 35.1 / 11.0 / 22.0
Qspr: 48.7
SumScr: 37.7 / 10.2 / 21.5
text-summarization-on-arxivBART-LS
ROUGE-1: 50.2
text-summarization-on-booksumBART-LS
ROUGE: 38.5
text-summarization-on-govreportBART-LS
ROUGE-1: 62.0
text-summarization-on-pubmed-1BART-LS
ROUGE-1: 50.3
text-summarization-on-qmsumBART-LS
ROUGE-1: 37.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练文本到文本模型在长文本序列上的适应 | 论文 | HyperAI超神经