3 个月前

基于合成数据无监督预训练的神经语法错误纠正系统

基于合成数据无监督预训练的神经语法错误纠正系统

摘要

为应对神经网络语法错误纠正(GEC)中的数据稀疏问题,已有大量研究投入。本文提出了一种简单而出人意料有效的无监督合成错误生成方法,该方法基于拼写检查器提取的混淆集(confusion sets)生成合成错误数据,从而显著扩充训练数据量。利用这些合成数据对Transformer序列到序列模型进行预训练,不仅超越了在真实标注错误数据上训练的强基线模型,还使得在真实错误标注数据极为有限的场景下,仍能构建出实用的GEC系统。所开发的系统在BEA19共享任务中表现优异,分别在受限(restricted)和低资源(low-resource)赛道上取得了69.47和64.24的F$_{0.5}$得分(测试集为W&I+LOCNESS)。在广泛使用的CoNLL 2014测试集上,提交系统取得了64.16 M${\rm ^2}$的当前最优(state-of-the-art)结果,而基于NUCLE和Lang-8数据训练的受限系统也达到了61.30 M${\rm ^2}$的先进水平。

基准测试

基准方法指标
grammatical-error-correction-on-bea-2019-testTransformer
F0.5: 69.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于合成数据无监督预训练的神经语法错误纠正系统 | 论文 | HyperAI超神经