3 个月前

预训练遇见聚类:一种混合抽取式多文档摘要模型

预训练遇见聚类:一种混合抽取式多文档摘要模型

摘要

在信息海量涌入互联网的当今时代,人工提取和消费相关信息不仅困难重重,而且耗时耗力。因此,亟需一种自动化文档摘要工具,以从主题相似或相关的多篇文档中提取关键信息。多文档摘要技术能够在最大限度减少冗余的前提下,从多篇文档中提炼出重要且相关的内容。本研究提出了一种基于无监督提取式方法的多文档文本摘要系统。该模型融合了两种学习范式:T5预训练Transformer模型与K-Means聚类算法。实验在标准新闻文章语料库——文档理解会议(Document Understanding Conference, DUC2004)上进行。采用ROUGE评估指标对所提方法在DUC2004数据集上的性能进行衡量。实验结果表明,与现有的无监督前沿方法相比,本模型在性能上显著提升,验证了其有效性与优越性。

基准测试

基准方法指标
extractive-text-summarization-on-duc-2004-1Pre-training-meets-Clustering-A-Hybrid-Extractive-Multi-Document-Summarization-Model
Test ROGUE-1: 34.013
Test ROGUE-2: 8.266

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练遇见聚类:一种混合抽取式多文档摘要模型 | 论文 | HyperAI超神经