6 个月前

摘要

我们提出了一项关于如何将现有预训练文本到文本模型适配于长序列输入的实证研究。通过在预训练流程的三个关键维度——模型架构、优化目标与预训练语料库——上进行系统性探索，我们提出了一种有效的方法，可基于现有的短上下文模型构建长上下文模型。具体而言，我们用池化增强的分块注意力（pooling-augmented blockwise attention）替代Transformer中的全注意力机制，并采用一种掩码跨度预测任务（masked-span prediction task）进行预训练，其中跨度长度具有多样性。在预训练语料的选择方面，我们发现：从大规模开放域语料库中随机拼接短文档，其性能优于使用现有长文档语料库，后者通常在领域覆盖范围上存在局限。基于上述发现，我们构建了一个长上下文模型，在长文本问答任务上表现出具有竞争力的性能，并在五个长文本摘要数据集上达到了新的最先进水平，其表现常优于参数规模更大的先前方法。相关代码已开源，地址为：https://github.com/facebookresearch/bart_ls。

源 PDF