3 个月前

长文档摘要的分治方法

长文档摘要的分治方法

摘要

我们提出了一种用于长文档神经摘要的新型分而治之方法。该方法利用文档的语篇结构,并通过句子相似性将问题分解为一系列较小的摘要任务集合。具体而言,我们将长文档及其摘要划分为多个源-目标配对,用于训练一个能够分别学习文档各部分摘要的模型。随后,将各个部分的摘要结果进行整合,生成最终的完整摘要。该方法将长文档摘要问题分解为若干更小、更简单的子问题,从而降低了计算复杂度,并生成了更多的训练样本。同时,与传统方法相比,这些训练样本中的目标摘要所含噪声更少。实验表明,该方法与多种摘要模型(包括序列到序列的RNN和Transformer)结合使用时,能够显著提升摘要性能。我们提出的最优模型在两个公开可用的学术论文数据集上,达到了与当前最先进水平相当的性能。

代码仓库

AlexGidiotis/DANCER-summ
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-summarization-on-arxivDANCER LSTM
ROUGE-1: 41.87
ROUGE-2: 15.92
ROUGE-L: 37.61
text-summarization-on-arxivDANCER PEGASUS
ROUGE-1: 45.01
ROUGE-2: 17.6
ROUGE-L: 40.56
text-summarization-on-arxivDANCER RUM
ROUGE-1: 42.7
ROUGE-2: 16.54
ROUGE-L: 38.44
text-summarization-on-pubmed-1DANCER RUM
ROUGE-1: 43.98
ROUGE-2: 17.65
ROUGE-L: 40.25
text-summarization-on-pubmed-1DANCER PEGASUS
ROUGE-1: 46.34
ROUGE-2: 19.97
ROUGE-L: 42.42
text-summarization-on-pubmed-1DANCER LSTM
ROUGE-1: 44.09
ROUGE-2: 17.69
ROUGE-L: 40.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
长文档摘要的分治方法 | 论文 | HyperAI超神经