
摘要
本研究探索了通过语言模型(LMs)生成人工错误(Artificial Error Generation, AEG)来提升语法错误修正(Grammatical Error Correction, GEC)性能的方法。具体而言,我们对基于 Llama 2 的语言模型进行微调,以实现错误生成,结果表明该方法生成的合成错误与人类产生的错误具有高度相似性。随后,我们利用这些人工错误训练 GEC 专用的 Llama 模型,在德语、乌克兰语和爱沙尼亚语三种语言上均取得了显著提升,F₀.₅ 指标提升幅度介于 0.8 至 6 之间,超越了此前的最先进模型。此外,我们还证明,通过微调小型序列到序列模型,或使用提示(prompting)大型商用语言模型(如 GPT-3.5 和 GPT-4)生成错误,同样能够产生对错误生成模型有益的合成错误。
代码仓库
TartuNLP/gec-llm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| grammatical-error-correction-on-estgec-l2 | Llama + 1M BT + gold | F0.5: 69.97 |
| grammatical-error-correction-on-falko-merlin | Llama + 1M BT + gold | F0.5: 76.75 |
| grammatical-error-correction-on-ua-gec | Llama + 1M BT + gold | F0.5: 74.09 |