
摘要
句子简化旨在降低句子的复杂度,同时保留其原始含义。目前的句子简化模型借鉴了机器翻译研究的思想,从正常-简化句对中隐式学习简化映射规则。本文探索了一种基于多层和多头注意力机制的新模型,并提出了两种创新方法来整合Simple PPDB(一个用于简化的同义句数据库),这是一个涵盖广泛现实简化规则的外部同义句知识库。实验结果表明,这种整合带来了两个主要优势:(1) 整合后的模型在文献中的多个最新基准模型上表现出色;(2) 通过对规则利用情况的分析,该模型能够选择更准确的简化规则。本文使用的代码和模型可在 https://github.com/Sanqiang/text_simplification 获取。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-simplification-on-asset | DMASS-DCSS | BLEU: 71.44* SARI (EASSEu003e=0.2.1): 38.67 |
| text-simplification-on-newsela | DMASS + DCSS | SARI: 27.28 |
| text-simplification-on-turkcorpus | DMASS-DCSS | SARI (EASSEu003e=0.2.1): 40.45 |