3 个月前

Klexikon:一个用于联合摘要生成与简化处理的德语数据集

Klexikon:一个用于联合摘要生成与简化处理的德语数据集

摘要

传统上,文本简化被视为一种单语翻译任务,即在训练过程中对源文本与其简化版本中的句子进行对齐。然而,对于较长的输入文本而言,文本摘要(或直接省略次要内容)在简化过程中起着至关重要的作用,而这一关键环节在现有数据集中尚未得到充分体现。与此同时,非英语语言的资源普遍稀缺,尤其在训练新模型方面几乎难以获取。为应对这一挑战,我们提出了一个能够联合实现长文本摘要与简化的系统所需的核心要求。在此基础上,我们基于德语维基百科和德语儿童词典“Klexikon”构建了一个新的联合文本简化与摘要数据集,包含近2900篇文档。我们发布了文档级对齐的版本,特别突出摘要功能,并提供了统计证据,表明该资源同样适用于文本简化任务。相关代码与数据已公开于GitHub:https://github.com/dennlinger/klexikon

代码仓库

dennlinger/klexikon
官方
GitHub 中提及
dennlinger/summaries
GitHub 中提及

基准测试

基准方法指标
text-summarization-on-klexikonFull article
ROUGE-1: 16.98
ROUGE-2: 4.30
ROUGE-L: 7.09
text-summarization-on-klexikonLuhn's algorithm (25 sentences)
ROUGE-1: 32.00
ROUGE-2: 5.63
ROUGE-L: 11.68
text-summarization-on-klexikonLead-k
ROUGE-1: 25.00
ROUGE-2: 5.16
ROUGE-L: 12.10
text-summarization-on-klexikonLead-3
ROUGE-1: 17.50
ROUGE-2: 3.94
ROUGE-L: 9.99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Klexikon:一个用于联合摘要生成与简化处理的德语数据集 | 论文 | HyperAI超神经