HyperAIHyperAI

Command Palette

Search for a command to run...

基于合成数据无监督预训练的神经语法错误纠正系统

Marcin Junczys-Dowmunt Roman Grundkiewicz Kenneth Heafield

摘要

为应对神经网络语法错误纠正(GEC)中的数据稀疏问题,已有大量研究投入。本文提出了一种简单而出人意料有效的无监督合成错误生成方法,该方法基于拼写检查器提取的混淆集(confusion sets)生成合成错误数据,从而显著扩充训练数据量。利用这些合成数据对Transformer序列到序列模型进行预训练,不仅超越了在真实标注错误数据上训练的强基线模型,还使得在真实错误标注数据极为有限的场景下,仍能构建出实用的GEC系统。所开发的系统在BEA19共享任务中表现优异,分别在受限(restricted)和低资源(low-resource)赛道上取得了69.47和64.24的F0.5_{0.5}0.5得分(测试集为W&I+LOCNESS)。在广泛使用的CoNLL 2014测试集上,提交系统取得了64.16 M2{\rm ^2}2的当前最优(state-of-the-art)结果,而基于NUCLE和Lang-8数据训练的受限系统也达到了61.30 M2{\rm ^2}2的先进水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于合成数据无监督预训练的神经语法错误纠正系统 | 论文 | HyperAI超神经