
摘要
中文拼写检查(Chinese Spelling Check, CSC)是一项具有挑战性的任务,主要源于汉字本身复杂的特征。统计数据显示,大多数中文拼写错误属于音近错误或形近错误。然而,以往的方法很少利用汉字的语音或形态学知识,或过度依赖外部资源来建模汉字之间的相似性。为解决上述问题,本文提出一种新型端到端可训练模型——PHMOSpell,通过融合多模态信息提升CSC性能。具体而言,模型分别从语音模态和视觉模态中提取汉字的拼音(pinyin)表示与字形(glyph)表示,并通过一种精心设计的自适应门控机制将其整合进预训练语言模型中。为验证模型的有效性,我们开展了全面的实验与消融研究。在三个公开共享基准上的实验结果表明,所提模型在各项指标上均持续优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chinese-spell-checking-on-sighan-2015 | PHMOSpell | Correction F1: 78.1 Detection F1: 80.5 |