
摘要
传统上,文本简化被视为一种单语翻译任务,即在训练过程中对源文本与其简化版本中的句子进行对齐。然而,对于较长的输入文本而言,文本摘要(或直接省略次要内容)在简化过程中起着至关重要的作用,而这一关键环节在现有数据集中尚未得到充分体现。与此同时,非英语语言的资源普遍稀缺,尤其在训练新模型方面几乎难以获取。为应对这一挑战,我们提出了一个能够联合实现长文本摘要与简化的系统所需的核心要求。在此基础上,我们基于德语维基百科和德语儿童词典“Klexikon”构建了一个新的联合文本简化与摘要数据集,包含近2900篇文档。我们发布了文档级对齐的版本,特别突出摘要功能,并提供了统计证据,表明该资源同样适用于文本简化任务。相关代码与数据已公开于GitHub:https://github.com/dennlinger/klexikon
代码仓库
dennlinger/klexikon
官方
GitHub 中提及
dennlinger/summaries
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-summarization-on-klexikon | Full article | ROUGE-1: 16.98 ROUGE-2: 4.30 ROUGE-L: 7.09 |
| text-summarization-on-klexikon | Luhn's algorithm (25 sentences) | ROUGE-1: 32.00 ROUGE-2: 5.63 ROUGE-L: 11.68 |
| text-summarization-on-klexikon | Lead-k | ROUGE-1: 25.00 ROUGE-2: 5.16 ROUGE-L: 12.10 |
| text-summarization-on-klexikon | Lead-3 | ROUGE-1: 17.50 ROUGE-2: 3.94 ROUGE-L: 9.99 |