7 个月前

自然语言处理

自然语言处理

Marcin Junczys-Dowmunt; Roman Grundkiewicz; Shubha Guha; Kenneth Heafield

摘要

此前，神经网络方法在语法错误纠正（GEC）方面未能达到与短语基统计机器翻译（SMT）基线相比的最先进水平。我们展示了神经网络GEC与低资源神经网络机器翻译（NMT）之间的相似之处，并成功地将几种低资源NMT的方法应用于神经网络GEC。此外，我们制定了神经网络GEC中可信赖结果的指导原则，并提出了一套模型无关的方法，这些方法可以轻松应用于大多数GEC场景。所提出的方法包括增加源端噪声、领域适应技术、特定于GEC的训练目标、利用单语数据进行迁移学习以及独立训练的GEC模型和语言模型的集成。这些方法的综合效果使得我们的神经网络GEC模型优于先前的最佳神经网络GEC系统，在CoNLL-2014基准测试中性能提高了超过10%的M $^2$ 分数，在JFLEG测试集中则提高了5.9%。非神经网络最先进系统在CoNLL-2014基准测试中的表现被超越了超过2%，而在JFLEG测试集上则被超越了4%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Marcin Junczys-Dowmunt; Roman Grundkiewicz; Shubha Guha; Kenneth Heafield

摘要

此前，神经网络方法在语法错误纠正（GEC）方面未能达到与短语基统计机器翻译（SMT）基线相比的最先进水平。我们展示了神经网络GEC与低资源神经网络机器翻译（NMT）之间的相似之处，并成功地将几种低资源NMT的方法应用于神经网络GEC。此外，我们制定了神经网络GEC中可信赖结果的指导原则，并提出了一套模型无关的方法，这些方法可以轻松应用于大多数GEC场景。所提出的方法包括增加源端噪声、领域适应技术、特定于GEC的训练目标、利用单语数据进行迁移学习以及独立训练的GEC模型和语言模型的集成。这些方法的综合效果使得我们的神经网络GEC模型优于先前的最佳神经网络GEC系统，在CoNLL-2014基准测试中性能提高了超过10%的M $^2$ 分数，在JFLEG测试集中则提高了5.9%。非神经网络最先进系统在CoNLL-2014基准测试中的表现被超越了超过2%，而在JFLEG测试集上则被超越了4%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供