6 个月前

自然语言处理

自然语言处理

Sophia Ananiadou Qianqian Xie Jennifer Bishop

摘要

文本摘要（Text Summarization, TS）是自然语言处理领域的一项重要任务。预训练语言模型（Pre-trained Language Models, PLMs）已被广泛用于提升文本摘要的性能。然而，PLMs受限于对标注训练数据的依赖以及其注意力机制的局限性，往往难以有效处理长文档。为此，我们提出了一种混合式、无监督的抽象-抽取融合方法：通过遍历文档，生成能够代表其核心要点的显著文本片段；随后，利用BERTScore计算文档中各句子与生成片段的相似度，选择最相似的句子作为摘要内容。我们在生物医学及通用科学领域文档上评估了该方法在引导抽取式摘要中生成并利用显著文本片段的有效性。我们进一步对比了不同生成模型（经微调以生成相关查询或文档标题）在长文档与短文档上的表现。实验结果表明，尽管无需大量标注训练数据，我们的混合方法在性能上优于现有的无监督方法，甚至超越了当前最先进的监督学习方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Sophia Ananiadou Qianqian Xie Jennifer Bishop

摘要

文本摘要（Text Summarization, TS）是自然语言处理领域的一项重要任务。预训练语言模型（Pre-trained Language Models, PLMs）已被广泛用于提升文本摘要的性能。然而，PLMs受限于对标注训练数据的依赖以及其注意力机制的局限性，往往难以有效处理长文档。为此，我们提出了一种混合式、无监督的抽象-抽取融合方法：通过遍历文档，生成能够代表其核心要点的显著文本片段；随后，利用BERTScore计算文档中各句子与生成片段的相似度，选择最相似的句子作为摘要内容。我们在生物医学及通用科学领域文档上评估了该方法在引导抽取式摘要中生成并利用显著文本片段的有效性。我们进一步对比了不同生成模型（经微调以生成相关查询或文档标题）在长文档与短文档上的表现。实验结果表明，尽管无需大量标注训练数据，我们的混合方法在性能上优于现有的无监督方法，甚至超越了当前最先进的监督学习方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供