3 个月前

DEPLAIN:一种德语平行语料库,包含同语言内的通俗语言翻译,用于句子与文档简化

DEPLAIN:一种德语平行语料库,包含同语言内的通俗语言翻译,用于句子与文档简化

摘要

文本简化是一项同语言翻译任务,旨在针对特定目标受众,对复杂源文本中的文档或句子进行简化。自动文本简化系统的效果在很大程度上取决于用于训练和评估的平行数据质量。为推动德语句子简化与文档简化的研究进展,本文提出了 DEplain——一个全新的平行语料库,包含由专业人员撰写并人工对齐的德语简易表达文本(“简易德语”,德语中称为“Einfache Sprache”)。DEplain 包含两个语料子集:新闻领域语料(约500个文档对,约1.3万个句子对)和网络领域语料(约150个对齐文档,约2000个对齐句子对)。此外,我们正在开发一个网络爬取工具,并探索自动对齐方法,以促进非对齐及未来发布的平行文本的整合。通过这一方法,我们正动态扩充网络领域语料库,目前其规模已扩展至约750个文档对和约3500个对齐句子对。实验表明,利用 DEplain 训练基于 Transformer 的序列到序列(seq2seq)文本简化模型,能够取得令人鼓舞的性能表现。我们已将该语料库、适用于德语的改进对齐方法、网络爬取工具以及训练好的模型公开发布,详见:https://github.com/rstodden/DEPlain。

代码仓库

rstodden/deplain
官方
GitHub 中提及

基准测试

基准方法指标
text-simplification-on-deplain-apa-doclong-mBART (trained on DEplain-web-doc)
BLEU: 12.913
BertScore (Precision): 0.475
FRE (Flesch Reading Ease): 59.55
SARI (EASSEu003e=0.2.1): 35.02
text-simplification-on-deplain-apa-doclong-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
BLEU: 36.449
BertScore (Precision): 0.589
FRE (Flesch Reading Ease): 65.4
SARI (EASSEu003e=0.2.1): 42.862
text-simplification-on-deplain-apa-doclong-mBART (trained on DEplain-APA-doc)
BLEU: 38.136
BertScore (Precision): 0.598
FRE (Flesch Reading Ease): 65.4
SARI (EASSEu003e=0.2.1): 44.56
text-simplification-on-deplain-apa-sentmBART (trained on DEplain-APA-sent & DEplain-web-sent)
BLEU: 28.506
BertScore (Precision): 0.64
FRE (Flesch Reading Ease): 62.669
SARI (EASSEu003e=0.2.1): 34.904
text-simplification-on-deplain-apa-sentmBART (trained on DEplain-APA-sent)
BLEU: 28.25
BertScore (Precision): 0.639
FRE (Flesch Reading Ease): 63.072
SARI (EASSEu003e=0.2.1): 34.818
text-simplification-on-deplain-web-doclong-mBART (trained on DEplain-APA-doc)
BLEU: 21.9
BertScore (Precision): 0.377
FRE (Flesch Reading Ease): 64.7
SARI (EASSEu003e=0.2.1): 43.087
text-simplification-on-deplain-web-doclong-mBART (trained on DEplain-web-doc)
BLEU: 23.282
BertScore (Precision): 0.462
FRE (Flesch Reading Ease): 63.5
SARI (EASSEu003e=0.2.1): 49.584
text-simplification-on-deplain-web-doclong-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
BLEU: 23.37
BertScore (Precision): 0.445
FRE (Flesch Reading Ease): 57.95
SARI (EASSEu003e=0.2.1): 49.745
text-simplification-on-deplain-web-sentmBART (trained on DEplain-APA-sent & DEplain-web-sent)
BLEU: 17.88
BertScore (Precision): 0.436
FRE (Flesch Reading Ease): 65.249
SARI (EASSEu003e=0.2.1): 34.828
text-simplification-on-deplain-web-sentmBART (trained on DEplain-APA-sent)
BLEU: 15.727
BertScore (Precision): 0.413
FRE (Flesch Reading Ease): 64.516
SARI (EASSEu003e=0.2.1): 30.867

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DEPLAIN:一种德语平行语料库,包含同语言内的通俗语言翻译,用于句子与文档简化 | 论文 | HyperAI超神经