4 个月前

g2pW:一种用于普通话多音字消歧的条件加权Softmax BERT

g2pW:一种用于普通话多音字消歧的条件加权Softmax BERT

摘要

多音字消歧是汉语字符到音素(grapheme-to-phoneme, g2p)转换中最关键的任务。以往的研究通过使用预训练语言模型、限制输出以及从词性标注(Part-Of-Speech, POS)中获取额外信息来解决这一问题。受这些策略的启发,我们提出了一种新的方法,称为 g2pW,该方法通过适应性学习的 Softmax 权重来调节 BERT 的输出,以考虑感兴趣的多音字及其词性标注。与以往研究中使用的硬掩码不同,我们的实验表明,为候选音素学习一个软权重函数可以提高性能。此外,我们提出的 g2pW 在使用词性标签作为辅助特征时,并不需要额外的预训练词性标注模型,因为我们同时在统一编码器中训练了词性标注模型。实验结果表明,我们的 g2pW 在公开的 CPP 数据集上优于现有的方法。所有代码、模型权重和用户友好的软件包均已公开发布。

代码仓库

GitYCC/g2pW
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
polyphone-disambiguation-on-cppg2pW
Accuracy: 99.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
g2pW:一种用于普通话多音字消歧的条件加权Softmax BERT | 论文 | HyperAI超神经