
摘要
本文首次尝试了仅依赖未标注文本语料库的无监督神经文本简化方法。核心框架由一个共享编码器和一对注意力解码器组成,并通过基于判别损失和去噪的方法获取简化知识。该框架使用从英文维基百科转储中收集的未标注文本进行训练。我们对公共测试数据进行了分析(包括定量分析和涉及人类评估者的定性分析),结果显示所提出的模型能够在词汇和句法层面上执行文本简化,其性能可与现有的有监督方法相媲美。加入少量标注样本也能进一步提升模型的性能。
代码仓库
subramanyamdvss/UnsupNTS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-simplification-on-asset | UNTS (Unsupervised) | BLEU: 76.14* SARI (EASSEu003e=0.2.1): 35.19 |
| text-simplification-on-turkcorpus | UNMT (Unsupervised) | BLEU: 74.02 SARI (EASSEu003e=0.2.1): 37.20 |
| text-simplification-on-turkcorpus | UNTS-10k (Weakly supervised) | SARI (EASSEu003e=0.2.1): 37.15 |
| text-simplification-on-turkcorpus | UNTS (Unsupervised) | SARI (EASSEu003e=0.2.1): 36.29 |