3 个月前

GoSum:基于强化学习与图结构话语状态的长文档抽取式摘要

GoSum:基于强化学习与图结构话语状态的长文档抽取式摘要

摘要

从长篇文档中提取摘要可被视为一种利用文档结构信息进行句子分类的任务。如何有效利用此类结构信息来生成文档摘要,仍是一项具有挑战性的课题。本文提出了一种基于图结构与强化学习的新型抽取式摘要模型——GoSum,用于长篇论文的摘要生成。具体而言,GoSum在不同语篇层次上为每个输入文档构建异构图,以编码句子状态,并在强化学习框架中进行优化。图中的边反映了文档的语篇层级结构,有助于抑制跨章节边界时的语义漂移问题。我们在两个科学论文摘要数据集(PubMed 和 arXiv)上对 GoSum 进行了评估。实验结果表明,与现有的强基准模型(包括抽取式与生成式模型)相比,GoSum 在各项指标上均取得了当前最优性能。消融实验进一步验证了语篇信息的有效性,证明了 GoSum 的优异表现得益于对文档结构信息的充分建模与利用。

代码仓库

Eulring/GoSum
官方
pytorch

基准测试

基准方法指标
text-summarization-on-pubmed-1GoSum (extractive)
ROUGE-1: 49.83
ROUGE-2: 23.56
ROUGE-L: 45.10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GoSum:基于强化学习与图结构话语状态的长文档抽取式摘要 | 论文 | HyperAI超神经