3 个月前

用于语法纠错的大序列标注器的集成与知识蒸馏

用于语法纠错的大序列标注器的集成与知识蒸馏

摘要

本文研究了基于大规模配置的先进Transformer编码器在语法纠错(GEC)序列标注架构中的改进,重点探讨了多种前沿Transformer模型的集成策略。我们采用基于片段级别(span-level)纠错结果的多数投票方式对模型进行集成,该方法对模型架构和词表大小具有较强的鲁棒性。所提出的最优集成模型在BEA-2019测试集上取得了76.05的$F_{0.5}$分数,创下新的SOTA(当前最优)记录,且无需在合成数据集上进行预训练。此外,我们利用训练好的集成模型进行知识蒸馏,生成了两个新的合成训练数据集:“Troy-Blogs”和“Troy-1BW”。基于这些生成的Troy数据集,并结合公开可用的合成PIE数据集进行预训练,我们构建的最优单模型在BEA-2019测试集上取得了接近SOTA的性能,$F_{0.5}$得分为73.21。据我们所知,目前仅有参数量远大于该模型的T5模型在该任务上表现更优。本文所涉及的代码、数据集及训练好的模型均已公开发布。

代码仓库

makstarnavskyi/gector-large
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
grammatical-error-correction-on-bea-2019-testDeBERTa + RoBERTa + XLNet
F0.5: 76.05

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于语法纠错的大序列标注器的集成与知识蒸馏 | 论文 | HyperAI超神经