
摘要
我们介绍了极端摘要(extreme summarization),这是一种新的单文档摘要任务,不倾向于抽取式策略,而是需要一种生成式建模方法。该任务的目标是创建一个简短的一句话新闻摘要,回答“文章的内容是什么?”这一问题。我们通过收集英国广播公司(BBC)的在线文章,构建了一个真实世界的大规模数据集来完成这项任务。我们提出了一种新颖的生成式模型,该模型以文章的主题为条件,并完全基于卷积神经网络。实验结果表明,这种架构能够捕捉文档中的长距离依赖关系,并识别相关的内容,在自动评估和人工评估中均优于一个理想的抽取式系统和当前最先进的生成式方法。
代码仓库
pltrdy/extoracle_summarization
GitHub 中提及
EdinburghNLP/XSum
pytorch
GitHub 中提及
shashiongithub/XSum
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-summarization-on-x-sum | Baseline : Extractive Oracle | ROUGE-1: 29.79 ROUGE-2: 8.81 ROUGE-3: 22.66 |
| text-summarization-on-x-sum | T-ConvS2S | ROUGE-1: 31.89 ROUGE-2: 11.54 ROUGE-3: 25.75 |
| text-summarization-on-x-sum | Seq2Seq | ROUGE-1: 28.42 ROUGE-2: 8.77 ROUGE-3: 22.48 |
| text-summarization-on-x-sum | PtGen-Covg | ROUGE-1: 28.10 ROUGE-2: 8.02 ROUGE-3: 21.72 |
| text-summarization-on-x-sum | Baseline : Random | ROUGE-1: 15.16 ROUGE-2: 1.78 ROUGE-3: 11.27 |
| text-summarization-on-x-sum | Baseline : Lead-3 | ROUGE-1: 16.30 ROUGE-2: 1.60 ROUGE-3: 11.95 |
| text-summarization-on-x-sum | PtGen | ROUGE-1: 29.70 ROUGE-2: 9.21 ROUGE-3: 23.24 |