3 个月前

利用维基百科编辑数据进行低资源语法错误修正

利用维基百科编辑数据进行低资源语法错误修正

摘要

我们开发了一套用于德语的语法错误修正(GEC)系统,该系统基于一个小型高质量GEC语料库,并通过从维基百科修订历史中提取的编辑记录进行扩充。我们对自动错误标注工具ERRANT(Bryant et al., 2017)进行了德语适配,并利用该工具分析高质量GEC修正结果以及维基百科编辑记录(Grundkiewicz and Junczys-Dowmunt, 2014),以筛选出与高质量语料库中语法修正类型相似的维基百科编辑作为额外训练数据。在此基础上,我们采用多层卷积编码器-解码器神经网络GEC方法(Chollampatt and Ng, 2018)进行实验,评估维基百科编辑数据的贡献。实验结果表明,经过精心筛选的维基百科编辑数据可使系统性能提升超过5%。

基准测试

基准方法指标
grammatical-error-correction-on-falko-merlinMultilayer Convolutional Encoder-Decoder
F0.5: 43.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用维基百科编辑数据进行低资源语法错误修正 | 论文 | HyperAI超神经