6 个月前

多模态表征

音频和语音处理

Jing Xiao Shaojun Wang Minchuan Chen ZhiYu Zhang Weiwei Jiang Junjie Li Li Huang

摘要

中文拼写检查（Chinese Spelling Check, CSC）是一项具有挑战性的任务，主要源于汉字本身复杂的特征。统计数据显示，大多数中文拼写错误属于音近错误或形近错误。然而，以往的方法很少利用汉字的语音或形态学知识，或过度依赖外部资源来建模汉字之间的相似性。为解决上述问题，本文提出一种新型端到端可训练模型——PHMOSpell，通过融合多模态信息提升CSC性能。具体而言，模型分别从语音模态和视觉模态中提取汉字的拼音（pinyin）表示与字形（glyph）表示，并通过一种精心设计的自适应门控机制将其整合进预训练语言模型中。为验证模型的有效性，我们开展了全面的实验与消融研究。在三个公开共享基准上的实验结果表明，所提模型在各项指标上均持续优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

音频和语音处理

Jing Xiao Shaojun Wang Minchuan Chen ZhiYu Zhang Weiwei Jiang Junjie Li Li Huang

摘要

中文拼写检查（Chinese Spelling Check, CSC）是一项具有挑战性的任务，主要源于汉字本身复杂的特征。统计数据显示，大多数中文拼写错误属于音近错误或形近错误。然而，以往的方法很少利用汉字的语音或形态学知识，或过度依赖外部资源来建模汉字之间的相似性。为解决上述问题，本文提出一种新型端到端可训练模型——PHMOSpell，通过融合多模态信息提升CSC性能。具体而言，模型分别从语音模态和视觉模态中提取汉字的拼音（pinyin）表示与字形（glyph）表示，并通过一种精心设计的自适应门控机制将其整合进预训练语言模型中。为验证模型的有效性，我们开展了全面的实验与消融研究。在三个公开共享基准上的实验结果表明，所提模型在各项指标上均持续优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供