
摘要
在本研究中,我们提出了一种新的方法,用于在没有启发式生成的抽取标签的情况下训练神经网络进行单文档抽取式摘要。我们将这种方法称为BanditSum,因为它将抽取式摘要视为一个上下文强盗(contextual bandit, CB)问题,其中模型接收需要摘要的文档(即上下文),并选择一系列句子纳入摘要(即动作)。我们使用策略梯度强化学习算法来训练模型,以选择能够最大化ROUGE分数的句子序列。我们进行了一系列实验,证明BanditSum能够在抽取式摘要方面实现优于或与现有最先进方法相当的ROUGE分数,并且其收敛所需的更新步骤显著少于竞争方法。此外,我们还通过实验证明,当源文档中出现好的摘要句子较晚时,BanditSum的表现显著优于竞争方法。
代码仓库
yuedongP/BanditSum
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| extractive-document-summarization-on-cnn | BanditSum | ROUGE-1: 41.5 ROUGE-2: 18.7 ROUGE-L: 37.6 |