
摘要
我们提出了一种用于长篇科学文档摘录式摘要的无监督图基排名模型。该方法假设源文档具有两级层次图表示,并利用非对称位置线索来确定句子的重要性。在PubMed和arXiv数据集上的实验结果表明,我们的方法在自动评估指标和人工评价方面均大幅优于强大的无监督基线模型。此外,该方法的性能与许多经过数十万例训练的最先进监督方法相当。这些结果表明,话语结构中的模式对于确定科学文章的重要性是一个强有力的信号。
代码仓库
mirandrom/HipoRank
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-extractive-summarization-on | HipoRank | ROUGE-1: 39.34 ROUGE-2: 12.56 ROUGE-L: 34.89 |
| unsupervised-extractive-summarization-on | PacSum | ROUGE-1: 38.57 ROUGE-2: 10.93 ROUGE-L: 34.33 |
| unsupervised-extractive-summarization-on-1 | PacSum | ROUGE-1: 39.79 ROUGE-2: 14.00 ROUGE-L: 36.09 |
| unsupervised-extractive-summarization-on-1 | HipoRank | ROUGE-1: 43.58 ROUGE-2: 17.00 ROUGE-L: 39.31 |