3 个月前

一种面向乌克兰语语法错误修正的低资源方法

一种面向乌克兰语语法错误修正的低资源方法

摘要

我们介绍了参与乌克兰语语法错误纠正共享任务(Grammatical Error Correction, GEC)的系统。本研究实现了两种基于大规模预训练语言模型与合成数据的方法,这些方法在英语及低资源语言的错误纠正任务中均已被证明有效。第一种方法采用两阶段微调策略,基于大规模多语言语言模型(mT5):首先在合成数据上进行预微调,随后在真实标注数据(gold data)上进行进一步微调。第二种方法则训练一个在合成数据上预训练的较小规模序列到序列(seq2seq)Transformer模型,并在真实标注数据上进行微调。我们的mT5基线模型在“仅GEC”赛道中取得第一名,在“GEC+流畅性”赛道中获得极为接近的第二名。本工作的两项关键创新在于:(1)采用分阶段微调策略,先在合成数据上训练,再在真实数据上精调;(2)提出一种高质量的文本污染(corruption)方法,基于往返机器翻译(roundtrip machine translation)机制,有效补充了现有的噪声注入(noisification)方法,显著提升了合成数据的质量与实用性。

基准测试

基准方法指标
grammatical-error-correction-on-ua-gecmT5 large + 10M synth
F0.5: 68.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种面向乌克兰语语法错误修正的低资源方法 | 论文 | HyperAI超神经