
摘要
本文利用文档固有的段落结构,以提升抽取式摘要任务的性能。我们构建了两种文本分割模型,并探索了将它们的输出预测结果最优地融入抽取式摘要模型的策略。在科学文献语料库上的实验结果表明,采用高精度的文本分割方法能够显著提升抽取式摘要的效果。尤其值得注意的是,当文档中最重要的信息并不位于开头部分时,性能提升最为明显。因此,我们得出结论:文本分割有助于缓解摘要中的“导语偏差”(lead bias)问题。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-summarization-on-arxiv | ExtSum + oracle segmentation (extractive) | ROUGE-1: 49.49 ROUGE-2: 21.04 ROUGE-L: 44.34 |
| text-summarization-on-arxiv | ExtSum + supervised segmentation (extractive) | ROUGE-1: 49.11 ROUGE-2: 20.68 ROUGE-L: 44.01 |