
摘要
基于神经网络的方法在生成抽象摘要时,其输出比其他技术更为流畅,但在内容选择方面可能表现不佳。本文提出了一种解决该问题的简单方法:使用数据高效的内容选择器来确定源文档中应包含在摘要中的短语。我们将此选择器作为自底向上的注意力步骤,以限制模型关注可能的短语。实验结果表明,这种方法不仅提高了文本压缩的能力,同时还能生成流畅的摘要。这一两步过程相较于其他端到端的内容选择模型更为简单且性能更高,从而在CNN-DM和NYT语料库上显著提升了ROUGE得分。此外,内容选择器只需用1,000个句子进行训练即可,这使得将已训练的摘要生成器迁移到新领域变得非常容易。
代码仓库
W4ngatang/qags
pytorch
GitHub 中提及
sebastianGehrmann/bottom-up-summary
官方
GitHub 中提及
prashanth41/text-summarization
tf
GitHub 中提及
mythicalhacker/Text-Summarization
tf
GitHub 中提及
j40903272/bottom-up-summary
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abstractive-text-summarization-on-cnn-daily | Bottom-Up Summarization | ROUGE-1: 41.22 ROUGE-2: 18.68 ROUGE-L: 38.34 |
| document-summarization-on-cnn-daily-mail | Bottom-Up Sum | PPL: 32.75 ROUGE-1: 41.22 ROUGE-2: 18.68 ROUGE-L: 38.34 |
| multi-document-summarization-on-multi-news | CopyTransformer | ROUGE-1: 43.57 ROUGE-2: 14.03 ROUGE-SU4: 17.37 |
| multi-document-summarization-on-multi-news | PG-BRNN | ROUGE-1: 42.80 ROUGE-2: 14.19 ROUGE-SU4: 16.75 |