
摘要
从多篇新闻文章自动生成摘要是一种有价值的工具,随着在线出版物数量的迅速增长,这一工具的重要性日益凸显。单文档摘要(Single Document Summarization, SDS)系统已经受益于神经编码器-解码器模型的发展,这得益于大规模数据集的可用性。然而,新闻文章的多文档摘要(Multi-Document Summarization, MDS)一直局限于包含几百个示例的数据集。在本文中,我们介绍了 Multi-News,这是首个大规模的 MDS 新闻数据集。此外,我们提出了一种端到端模型,该模型结合了传统的抽取式摘要模型和标准的 SDS 模型,在 MDS 数据集上取得了具有竞争力的结果。我们在 Multi-News 上对多种方法进行了基准测试,并发布了我们的数据和代码,希望这项工作能够促进多文档摘要领域的进一步发展。
代码仓库
Alex-Fabbri/Multi-News
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-document-summarization-on-multi-news | Hi-MAP | ROUGE-1: 43.47 ROUGE-2: 14.89 ROUGE-SU4: 17.41 |