3 个月前

迈向统一的文本分割与长文档摘要

迈向统一的文本分割与长文档摘要

摘要

文本分段对于揭示文档的结构具有重要意义。若未将长篇文档划分为主题连贯的段落,读者将难以理解文本内容,更遑论从中提取关键信息。这一问题在音频/视频记录的转录文本中尤为突出,因其往往缺乏有效的分段处理。本文探讨了段落分段在书面与口语文档的抽取式摘要任务中的作用。我们提出的方法通过同时执行摘要生成与段落划分,学习到更加稳健的句子表示,并进一步引入基于优化的正则化项,以促进所选摘要句子的多样性。我们在涵盖科学论文到口语转录文本等多种数据集上进行了实验,评估模型性能。实验结果表明,该模型不仅在公开基准测试中达到了当前最优水平,而且在配备文本分段能力后,展现出更强的跨文体迁移能力。我们还开展了一系列分析,量化了段落分段对长篇、复杂书面与口语文档摘要效果的影响。

代码仓库

基准测试

基准方法指标
text-summarization-on-arxivLodoss-full-large (extractive)
ROUGE-1: 48.45
ROUGE-2: 20.72
ROUGE-L: 42.55
text-summarization-on-arxivLodoss-full-base (extractive)
ROUGE-1: 48.20
ROUGE-2: 20.50
ROUGE-L: 42.28
text-summarization-on-pubmed-1Lodoss-full-large (extractive)
ROUGE-1: 49.38
ROUGE-2: 23.89
ROUGE-L: 44.84
text-summarization-on-pubmed-1Lodoss-full-base (extractive)
ROUGE-1: 48.93
ROUGE-2: 23.51
ROUGE-L: 44.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
迈向统一的文本分割与长文档摘要 | 论文 | HyperAI超神经