6 个月前

摘要

近期研究表明，在大规模文本语料上通过自监督目标对Transformer模型进行预训练，并在下游自然语言处理任务（包括文本摘要）上进行微调，取得了显著成效。然而，针对抽象式文本摘要任务量身定制的预训练目标尚未得到充分探索，且在不同领域间的系统性评估仍显不足。为此，本文提出一种新的自监督预训练方法，用于在海量文本语料上训练基于Transformer的编码器-解码器大型模型。在该方法中，我们设计了名为PEGASUS的新框架：从输入文档中移除或屏蔽关键句子，模型则需基于剩余句子联合生成这些被移除的句子作为输出，这一过程类似于抽取式摘要的生成机制。我们在涵盖新闻、科学文献、故事、操作说明、电子邮件、专利及立法提案等多样领域的12个下游摘要任务上评估了性能最优的PEGASUS模型。实验结果表明，该模型在全部12个数据集上均以ROUGE评分取得了当前最优（SOTA）表现。此外，该模型在低资源摘要场景下也展现出惊人性能，在仅使用1000个训练样本的6个数据集上，其表现超越了此前的最先进方法。最后，我们通过人工评估验证了模型结果，结果表明，PEGASUS生成的摘要在多个数据集上已达到人类水平的摘要质量。

源 PDF