
摘要
基于注意力机制的循环神经网络(RNN)编码器-解码器模型在生成抽象摘要时,在较短的输入和输出序列上已经取得了良好的性能。然而,对于较长的文档和摘要,这些模型往往包含重复和不连贯的短语。我们提出了一种具有新颖内部注意力机制的神经网络模型,该机制分别对输入和连续生成的输出进行关注,并引入了一种新的训练方法,该方法结合了传统的监督式单词预测和强化学习(Reinforcement Learning, RL)。仅通过监督学习训练的模型通常会表现出“暴露偏差”——它们假设在训练过程中每一步都提供了真实值。然而,当传统的单词预测与RL的全局序列预测训练相结合时,生成的摘要变得更加可读。我们在CNN/Daily Mail和《纽约时报》数据集上评估了该模型。我们的模型在CNN/Daily Mail数据集上获得了41.16的ROUGE-1分数,优于之前的最先进模型。人工评估也表明,我们的模型生成了更高品质的摘要。
代码仓库
Hmkhalla/NLP-summarizer
pytorch
GitHub 中提及
JRC1995/Abstractive-Summarization
tf
GitHub 中提及
cosmoquester/2021-dialogue-summary-competition
pytorch
GitHub 中提及
manshri/tesum
pytorch
GitHub 中提及
rohithreddy024/Text-Summarizer-Pytorch
pytorch
GitHub 中提及
VD44/Rouge-L-Tensorflow
tf
GitHub 中提及
oceanypt/A-DEEP-REINFORCED-MODEL-FOR-ABSTRACTIVE-SUMMARIZATION
pytorch
GitHub 中提及
Kumar-Tarun/summarization
pytorch
GitHub 中提及
AndreyKolomiets/News_Headline_Generation
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-summarization-on-cnn-daily-mail | ML + RL (Paulus et al., 2017) | ROUGE-1: 39.87 ROUGE-2: 15.82 ROUGE-L: 36.90 |
| document-summarization-on-cnn-daily-mail | ML + Intra-Attention (Paulus et al., 2017) | ROUGE-1: 38.30 ROUGE-2: 14.81 ROUGE-L: 35.49 |
| text-summarization-on-cnn-daily-mail-2 | ML+RL, with intra-attention | ROUGE-1: 39.87 ROUGE-2: 15.82 ROUGE-L: 36.90 |