6 个月前

自然语言处理

自然语言处理

Marcin Junczys-Dowmunt Roman Grundkiewicz Kenneth Heafield

摘要

为应对神经网络语法错误纠正（GEC）中的数据稀疏问题，已有大量研究投入。本文提出了一种简单而出人意料有效的无监督合成错误生成方法，该方法基于拼写检查器提取的混淆集（confusion sets）生成合成错误数据，从而显著扩充训练数据量。利用这些合成数据对Transformer序列到序列模型进行预训练，不仅超越了在真实标注错误数据上训练的强基线模型，还使得在真实错误标注数据极为有限的场景下，仍能构建出实用的GEC系统。所开发的系统在BEA19共享任务中表现优异，分别在受限（restricted）和低资源（low-resource）赛道上取得了69.47和64.24的F $_{0.5}$ 得分（测试集为W&I+LOCNESS）。在广泛使用的CoNLL 2014测试集上，提交系统取得了64.16 M ${\rm ^2}$ 的当前最优（state-of-the-art）结果，而基于NUCLE和Lang-8数据训练的受限系统也达到了61.30 M ${\rm ^2}$ 的先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Marcin Junczys-Dowmunt Roman Grundkiewicz Kenneth Heafield

摘要

为应对神经网络语法错误纠正（GEC）中的数据稀疏问题，已有大量研究投入。本文提出了一种简单而出人意料有效的无监督合成错误生成方法，该方法基于拼写检查器提取的混淆集（confusion sets）生成合成错误数据，从而显著扩充训练数据量。利用这些合成数据对Transformer序列到序列模型进行预训练，不仅超越了在真实标注错误数据上训练的强基线模型，还使得在真实错误标注数据极为有限的场景下，仍能构建出实用的GEC系统。所开发的系统在BEA19共享任务中表现优异，分别在受限（restricted）和低资源（low-resource）赛道上取得了69.47和64.24的F $_{0.5}$ 得分（测试集为W&I+LOCNESS）。在广泛使用的CoNLL 2014测试集上，提交系统取得了64.16 M ${\rm ^2}$ 的当前最优（state-of-the-art）结果，而基于NUCLE和Lang-8数据训练的受限系统也达到了61.30 M ${\rm ^2}$ 的先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供