
摘要
句子简化是指将文本重写为更容易理解的形式。近期的研究已将序列到序列(Seq2Seq)模型应用于这一任务,主要集中在通过强化学习和记忆增强在训练阶段进行改进。应用通用Seq2Seq模型进行简化的一个主要问题是,这些模型往往直接从原始句子中复制内容,导致输出的句子仍然相对较长且复杂。我们旨在通过两种主要技术来缓解这一问题。首先,在训练过程中,我们将层级词汇复杂度模型预测的内容词复杂度纳入损失函数。其次,在测试时生成大量多样化的候选简化句,并重新排序以提升流畅性、充分性和简洁性。在这里,我们通过一个新颖的句子复杂度模型来衡量简洁性。这些扩展使我们的模型能够在生成更简单句子的同时,与最先进系统具有竞争力。我们报告了标准的自动评估和人工评估指标。
代码仓库
rekriz11/DeDiv
GitHub 中提及
rekriz11/sockeye-recipes
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-simplification-on-newsela | S2S-Cluster-FA | BLEU: 19.55 SARI: 30.73 |