4 个月前

用于生成摘要的深度强化模型

用于生成摘要的深度强化模型

摘要

基于注意力机制的循环神经网络(RNN)编码器-解码器模型在生成抽象摘要时,在较短的输入和输出序列上已经取得了良好的性能。然而,对于较长的文档和摘要,这些模型往往包含重复和不连贯的短语。我们提出了一种具有新颖内部注意力机制的神经网络模型,该机制分别对输入和连续生成的输出进行关注,并引入了一种新的训练方法,该方法结合了传统的监督式单词预测和强化学习(Reinforcement Learning, RL)。仅通过监督学习训练的模型通常会表现出“暴露偏差”——它们假设在训练过程中每一步都提供了真实值。然而,当传统的单词预测与RL的全局序列预测训练相结合时,生成的摘要变得更加可读。我们在CNN/Daily Mail和《纽约时报》数据集上评估了该模型。我们的模型在CNN/Daily Mail数据集上获得了41.16的ROUGE-1分数,优于之前的最先进模型。人工评估也表明,我们的模型生成了更高品质的摘要。

基准测试

基准方法指标
document-summarization-on-cnn-daily-mailML + RL (Paulus et al., 2017)
ROUGE-1: 39.87
ROUGE-2: 15.82
ROUGE-L: 36.90
document-summarization-on-cnn-daily-mailML + Intra-Attention (Paulus et al., 2017)
ROUGE-1: 38.30
ROUGE-2: 14.81
ROUGE-L: 35.49
text-summarization-on-cnn-daily-mail-2ML+RL, with intra-attention
ROUGE-1: 39.87
ROUGE-2: 15.82
ROUGE-L: 36.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于生成摘要的深度强化模型 | 论文 | HyperAI超神经