
摘要
科学极端摘要(TLDR)旨在形成科学论文的超短摘要。以往构建科学TLDR数据集的努力由于需要大量的人工标注和领域专业知识而未能大规模扩展。在本文中,我们提出了一种简单而有效的方法,从科学论文的引用文本中自动提取TLDR摘要。基于该方法,我们创建了一个无需人工标注的新基准数据集CiteSum,其规模约为先前人工标注数据集SciTLDR的30倍。我们对CiteSum进行了全面分析,考察了其数据特征并建立了强大的基线模型。此外,我们通过将预训练模型CITES适应到监督较少的新任务和新领域,进一步展示了CiteSum的实用性。对于科学极端摘要任务,未经任何微调的CITES在SciTLDR上优于大多数全监督方法,并且仅用128个样例就达到了最先进的结果。对于新闻极端摘要任务,CITES在其基础模型(未在CiteSum上预训练)上显著提升了XSum的表现,例如零样本性能提高了7.2个ROUGE-1分,并且在少量样本性能上达到最先进水平。对于新闻标题生成任务,CITES在Gigaword数据集上表现最佳,超过了无监督和零样本方法。我们的数据集和代码可在https://github.com/morningmoni/CiteSum 获取。
代码仓库
morningmoni/citesum
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| extreme-summarization-on-citesum | BART-large (s=abs, t= TLDR/Title/Disci) | ROUGE-1: 41.89 ROUGE-2: 19.51 ROUGE-L: 33.73 |
| extreme-summarization-on-citesum | PEGASUS (s=abs, t=TLDR) | ROUGE-1: 41.56 ROUGE-2: 18.63 ROUGE-L: 33.45 |
| extreme-summarization-on-citesum | EXT-LEAD | ROUGE-1: 21.94 ROUGE-2: 7.35 ROUGE-L: 17.36 |
| extreme-summarization-on-citesum | BART-large (s=abs+disci, t=TLDR) | ROUGE-1: 42.01 ROUGE-2: 19.34 ROUGE-L: 33.72 |
| extreme-summarization-on-citesum | BART-large (s=abs, t=TLDR/title) | ROUGE-1: 41.85 ROUGE-2: 19.21 ROUGE-L: 33.42 |
| extreme-summarization-on-citesum | BART-large (s=abs+title, t=TLDR) | ROUGE-1: 42.02 ROUGE-2: 19.44 ROUGE-L: 33.78 |
| extreme-summarization-on-citesum | BART-large (s=abs, t=TLDR) | ROUGE-1: 41.86 ROUGE-2: 19.36 ROUGE-L: 33.72 |
| extreme-summarization-on-citesum | EXT-HEURISTIC | ROUGE-1: 29.32 ROUGE-2: 12.53 ROUGE-L: 23.99 |
| extreme-summarization-on-citesum | EXT-ORACLE | ROUGE-1: 44.17 ROUGE-2: 27.22 ROUGE-L: 38.32 |