3 个月前

一种简单的多语言语法错误修正配方

一种简单的多语言语法错误修正配方

摘要

本文提出了一种简单有效的训练当前最先进多语言语法错误修正(Grammatical Error Correction, GEC)模型的方法。首先,我们提出了一种与语言无关的合成数据生成方法,可大规模生成高质量的合成训练样本;其次,我们采用了参数规模高达110亿的超大规模多语言语言模型。在针对特定语言的监督数据集上进行微调后,我们在四种语言——英语、捷克语、德语和俄语——的GEC基准测试中均超越了此前的最先进水平。在建立GEC任务新的基准线后,我们通过发布一个名为cLang-8的数据集,使实验结果易于复现且广泛可访问。该数据集由我们性能最优的模型gT5对广泛使用但噪声较大的Lang-8数据集的目标文本进行清洗而生成。cLang-8显著简化了传统GEC训练流程中复杂的多阶段微调过程:我们证明,仅需对预训练好的通用语言模型在cLang-8数据集上执行一次微调,即可在英语GEC任务上进一步提升已属顶尖的gT5模型的准确率。

代码仓库

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种简单的多语言语法错误修正配方 | 论文 | HyperAI超神经