7 个月前

监督式微调

and Dan Roth Alla Rozovskaya Frank Palma Gomez

摘要

我们介绍了参与乌克兰语语法错误纠正共享任务（Grammatical Error Correction, GEC）的系统。本研究实现了两种基于大规模预训练语言模型与合成数据的方法，这些方法在英语及低资源语言的错误纠正任务中均已被证明有效。第一种方法采用两阶段微调策略，基于大规模多语言语言模型（mT5）：首先在合成数据上进行预微调，随后在真实标注数据（gold data）上进行进一步微调。第二种方法则训练一个在合成数据上预训练的较小规模序列到序列（seq2seq）Transformer模型，并在真实标注数据上进行微调。我们的mT5基线模型在“仅GEC”赛道中取得第一名，在“GEC+流畅性”赛道中获得极为接近的第二名。本工作的两项关键创新在于：（1）采用分阶段微调策略，先在合成数据上训练，再在真实数据上精调；（2）提出一种高质量的文本污染（corruption）方法，基于往返机器翻译（roundtrip machine translation）机制，有效补充了现有的噪声注入（noisification）方法，显著提升了合成数据的质量与实用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

监督式微调

and Dan Roth Alla Rozovskaya Frank Palma Gomez

摘要

我们介绍了参与乌克兰语语法错误纠正共享任务（Grammatical Error Correction, GEC）的系统。本研究实现了两种基于大规模预训练语言模型与合成数据的方法，这些方法在英语及低资源语言的错误纠正任务中均已被证明有效。第一种方法采用两阶段微调策略，基于大规模多语言语言模型（mT5）：首先在合成数据上进行预微调，随后在真实标注数据（gold data）上进行进一步微调。第二种方法则训练一个在合成数据上预训练的较小规模序列到序列（seq2seq）Transformer模型，并在真实标注数据上进行微调。我们的mT5基线模型在“仅GEC”赛道中取得第一名，在“GEC+流畅性”赛道中获得极为接近的第二名。本工作的两项关键创新在于：（1）采用分阶段微调策略，先在合成数据上训练，再在真实数据上精调；（2）提出一种高质量的文本污染（corruption）方法，基于往返机器翻译（roundtrip machine translation）机制，有效补充了现有的噪声注入（noisification）方法，显著提升了合成数据的质量与实用性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

一种面向乌克兰语语法错误修正的低资源方法 | 论文 | HyperAI超神经