3 个月前

PHMOSpell:基于音韵与形态学知识的中文拼写检查

PHMOSpell:基于音韵与形态学知识的中文拼写检查

摘要

中文拼写检查(Chinese Spelling Check, CSC)是一项具有挑战性的任务,主要源于汉字本身复杂的特征。统计数据显示,大多数中文拼写错误属于音近错误或形近错误。然而,以往的方法很少利用汉字的语音或形态学知识,或过度依赖外部资源来建模汉字之间的相似性。为解决上述问题,本文提出一种新型端到端可训练模型——PHMOSpell,通过融合多模态信息提升CSC性能。具体而言,模型分别从语音模态和视觉模态中提取汉字的拼音(pinyin)表示与字形(glyph)表示,并通过一种精心设计的自适应门控机制将其整合进预训练语言模型中。为验证模型的有效性,我们开展了全面的实验与消融研究。在三个公开共享基准上的实验结果表明,所提模型在各项指标上均持续优于现有的最先进方法。

基准测试

基准方法指标
chinese-spell-checking-on-sighan-2015PHMOSpell
Correction F1: 78.1
Detection F1: 80.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PHMOSpell:基于音韵与形态学知识的中文拼写检查 | 论文 | HyperAI超神经