
摘要
本文提出了一种简单有效的训练当前最先进多语言语法错误修正(Grammatical Error Correction, GEC)模型的方法。首先,我们提出了一种与语言无关的合成数据生成方法,可大规模生成高质量的合成训练样本;其次,我们采用了参数规模高达110亿的超大规模多语言语言模型。在针对特定语言的监督数据集上进行微调后,我们在四种语言——英语、捷克语、德语和俄语——的GEC基准测试中均超越了此前的最先进水平。在建立GEC任务新的基准线后,我们通过发布一个名为cLang-8的数据集,使实验结果易于复现且广泛可访问。该数据集由我们性能最优的模型gT5对广泛使用但噪声较大的Lang-8数据集的目标文本进行清洗而生成。cLang-8显著简化了传统GEC训练流程中复杂的多阶段微调过程:我们证明,仅需对预训练好的通用语言模型在cLang-8数据集上执行一次微调,即可在英语GEC任务上进一步提升已属顶尖的gT5模型的准确率。
代码仓库
google-research-datasets/clang8
官方
GitHub 中提及
gotutiyan/gec-t5
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| grammatical-error-correction-on-conll-2014 | T5 | F0.5: 68.87 |
| grammatical-error-correction-on-falko-merlin | gT5 xxl | F0.5: 75.96 |