
摘要
文本摘要(Text Summarization, TS)是自然语言处理领域的一项重要任务。预训练语言模型(Pre-trained Language Models, PLMs)已被广泛用于提升文本摘要的性能。然而,PLMs受限于对标注训练数据的依赖以及其注意力机制的局限性,往往难以有效处理长文档。为此,我们提出了一种混合式、无监督的抽象-抽取融合方法:通过遍历文档,生成能够代表其核心要点的显著文本片段;随后,利用BERTScore计算文档中各句子与生成片段的相似度,选择最相似的句子作为摘要内容。我们在生物医学及通用科学领域文档上评估了该方法在引导抽取式摘要中生成并利用显著文本片段的有效性。我们进一步对比了不同生成模型(经微调以生成相关查询或文档标题)在长文档与短文档上的表现。实验结果表明,尽管无需大量标注训练数据,我们的混合方法在性能上优于现有的无监督方法,甚至超越了当前最先进的监督学习方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-summarization-on-arxiv | GenCompareSum | ROUGE-1: 39.96 ROUGE-2: 15.15 ROUGE-L: 36.19 |
| text-summarization-on-cord-19 | GenCompareSum | ROUGE-1: 41.02 ROUGE-2: 13.79 ROUGE-L: 37.25 |
| text-summarization-on-pubmed-1 | GenCompareSum | ROUGE-1: 42.10 ROUGE-2: 16.51 ROUGE-L: 38.25 |
| text-summarization-on-s2orc | GenCompareSum | ROUGE-1: 43.39 ROUGE-2: 16.84 ROUGE-L: 39.82 |