
摘要
基于编辑(edit-based)的方法在多项单语序列转换任务中近期展现出令人瞩目的成果。与传统的序列到序列(Seq2Seq)模型不同——后者在平行语料上训练时从零开始生成文本——这类方法由于能够利用强大的预训练语言模型,学习快速且准确的文本转换,因而表现出更高的有效性。受此启发,我们提出了TST(Text Simplification via Tagging),一种基于序列标注的简洁高效文本简化系统,该系统依托预训练的基于Transformer的编码器。我们的方法通过对现有系统在训练和推理阶段进行简单的数据增强与调整,显著降低了对大规模平行训练数据的依赖,同时增强了输出控制能力,并实现了更快的推理速度。在基准测试数据集上,我们最优模型的表现接近当前最先进水平。由于系统完全采用非自回归(non-autoregressive)架构,其推理速度相较当前最先进的文本简化系统提升了超过11倍。
代码仓库
grammarly/gector
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-simplification-on-asset | TST | SARI (EASSEu003e=0.2.1): 43.21 |
| text-simplification-on-pwkp-wikismall | TST | SARI: 44.67 SARI (EASSEu003e=0.2.1): 44.67 |
| text-simplification-on-turkcorpus | TST | SARI (EASSEu003e=0.2.1): 41.46 |