6 个月前

监督式微调

Sascha Rothe Jonathan Mallinson Eric Malmi Sebastian Krause Aliaksei Severyn

摘要

本文提出了一种简单有效的训练当前最先进多语言语法错误修正（Grammatical Error Correction, GEC）模型的方法。首先，我们提出了一种与语言无关的合成数据生成方法，可大规模生成高质量的合成训练样本；其次，我们采用了参数规模高达110亿的超大规模多语言语言模型。在针对特定语言的监督数据集上进行微调后，我们在四种语言——英语、捷克语、德语和俄语——的GEC基准测试中均超越了此前的最先进水平。在建立GEC任务新的基准线后，我们通过发布一个名为cLang-8的数据集，使实验结果易于复现且广泛可访问。该数据集由我们性能最优的模型gT5对广泛使用但噪声较大的Lang-8数据集的目标文本进行清洗而生成。cLang-8显著简化了传统GEC训练流程中复杂的多阶段微调过程：我们证明，仅需对预训练好的通用语言模型在cLang-8数据集上执行一次微调，即可在英语GEC任务上进一步提升已属顶尖的gT5模型的准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

Sascha Rothe Jonathan Mallinson Eric Malmi Sebastian Krause Aliaksei Severyn

摘要

本文提出了一种简单有效的训练当前最先进多语言语法错误修正（Grammatical Error Correction, GEC）模型的方法。首先，我们提出了一种与语言无关的合成数据生成方法，可大规模生成高质量的合成训练样本；其次，我们采用了参数规模高达110亿的超大规模多语言语言模型。在针对特定语言的监督数据集上进行微调后，我们在四种语言——英语、捷克语、德语和俄语——的GEC基准测试中均超越了此前的最先进水平。在建立GEC任务新的基准线后，我们通过发布一个名为cLang-8的数据集，使实验结果易于复现且广泛可访问。该数据集由我们性能最优的模型gT5对广泛使用但噪声较大的Lang-8数据集的目标文本进行清洗而生成。cLang-8显著简化了传统GEC训练流程中复杂的多阶段微调过程：我们证明，仅需对预训练好的通用语言模型在cLang-8数据集上执行一次微调，即可在英语GEC任务上进一步提升已属顶尖的gT5模型的准确率。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供