
摘要
我们提出了一种通过神经程序员-解释器方法学习显式编辑操作(添加、删除和保留)的首个句子简化模型。目前大多数神经句子简化系统都是从机器翻译中借鉴而来的序列到序列模型的变体。这些方法在训练时使用复杂-简单句子对,因此作为副产品学会了简化句子。相比之下,我们的神经程序员-解释器直接训练以预测输入句子目标部分上的显式编辑操作,类似于人类进行简化和修订的方式。我们的模型在三个基准文本简化语料库上显著优于先前的最佳神经句子简化模型(不使用外部知识),具体表现在SARI评分上的提升(WikiLarge +0.95,WikiSmall +1.89,Newsela +1.41),并且经人类评估后认为其生成的整体更好的且更简单的输出句子。
代码仓库
yuedongP/EditNTS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-simplification-on-newsela | EditNTS | BLEU: 19.85 SARI: 31.41 |
| text-simplification-on-pwkp-wikismall | EditNTS | SARI: 32.35 |
| text-simplification-on-turkcorpus | EditNTS | BLEU: 86.69 SARI (EASSEu003e=0.2.1): 38.22 |