3 个月前

编码器-解码器模型在语法错误修正任务中可从预训练的掩码语言模型中获益

编码器-解码器模型在语法错误修正任务中可从预训练的掩码语言模型中获益

摘要

本文研究了如何有效将预训练的掩码语言模型(Masked Language Model, MLM),如BERT,融入编码器-解码器(Encoder-Decoder, EncDec)架构中以实现语法错误纠正(Grammatical Error Correction, GEC)。这一问题的答案并不像人们预期的那样简单直接,因为以往将MLM融入EncDec模型的常用方法在应用于GEC任务时存在潜在缺陷。例如,GEC模型的输入数据分布(如包含语法错误、表达不自然等)与预训练MLM所使用的语料库分布存在显著差异;然而,现有方法并未解决这一问题。我们的实验表明,所提出的改进方法——即先使用特定的GEC语料对MLM进行微调,再将微调后MLM的输出作为额外特征输入到GEC模型中——能够最大程度地发挥MLM的优势。该方法在BEA-2019和CoNLL-2014两个基准测试上均取得了当前最优的性能表现。相关代码已公开,可访问:https://github.com/kanekomasahiro/bert-gec。

代码仓库

基准测试

基准方法指标
grammatical-error-correction-on-bea-2019-testTransformer + Pre-train with Pseudo Data (+BERT)
F0.5: 69.8
grammatical-error-correction-on-conll-2014Transformer + Pre-train with Pseudo Data (+BERT)
F0.5: 65.2
grammatical-error-correction-on-jflegTransformer + Pre-train with Pseudo Data + BERT
GLEU: 62.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
编码器-解码器模型在语法错误修正任务中可从预训练的掩码语言模型中获益 | 论文 | HyperAI超神经