3 个月前

GenCompareSum:一种基于显著性的混合无监督摘要方法

GenCompareSum:一种基于显著性的混合无监督摘要方法

摘要

文本摘要(Text Summarization, TS)是自然语言处理领域的一项重要任务。预训练语言模型(Pre-trained Language Models, PLMs)已被广泛用于提升文本摘要的性能。然而,PLMs受限于对标注训练数据的依赖以及其注意力机制的局限性,往往难以有效处理长文档。为此,我们提出了一种混合式、无监督的抽象-抽取融合方法:通过遍历文档,生成能够代表其核心要点的显著文本片段;随后,利用BERTScore计算文档中各句子与生成片段的相似度,选择最相似的句子作为摘要内容。我们在生物医学及通用科学领域文档上评估了该方法在引导抽取式摘要中生成并利用显著文本片段的有效性。我们进一步对比了不同生成模型(经微调以生成相关查询或文档标题)在长文档与短文档上的表现。实验结果表明,尽管无需大量标注训练数据,我们的混合方法在性能上优于现有的无监督方法,甚至超越了当前最先进的监督学习方法。

基准测试

基准方法指标
text-summarization-on-arxivGenCompareSum
ROUGE-1: 39.96
ROUGE-2: 15.15
ROUGE-L: 36.19
text-summarization-on-cord-19GenCompareSum
ROUGE-1: 41.02
ROUGE-2: 13.79
ROUGE-L: 37.25
text-summarization-on-pubmed-1GenCompareSum
ROUGE-1: 42.10
ROUGE-2: 16.51
ROUGE-L: 38.25
text-summarization-on-s2orcGenCompareSum
ROUGE-1: 43.39
ROUGE-2: 16.84
ROUGE-L: 39.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GenCompareSum:一种基于显著性的混合无监督摘要方法 | 论文 | HyperAI超神经