4 个月前

一种层次化上下文感知的多方面多粒度发音评估建模方法

一种层次化上下文感知的多方面多粒度发音评估建模方法

摘要

自动发音评估(APA)在计算机辅助发音训练(CAPT)中起着至关重要的作用,特别是在评估第二语言(L2)学习者的口语能力时。然而,大多数现有方法的一个明显缺点是,它们在不同的语音粒度上并行化建模过程,而没有考虑到这些粒度之间的层次关系和局部上下文关系。为此,本文提出了一种新的层次化方法,用于多方面和多粒度的APA。具体而言,我们首先引入了超音素(sup-phonemes)的概念,以探索L2说话者更为细微的语义特征。其次,利用深度可分离卷积层更好地封装子词级别的局部上下文线索。最后,我们采用分数约束注意力池化机制来预测句子级别的得分,并通过多任务学习(MTL)框架优化各个组件模型。在公开可用的基准数据集SpeechOcean762上进行的大量实验表明,我们的方法相对于一些前沿基线方法具有有效性。

基准测试

基准方法指标
phone-level-pronunciation-scoring-on3MH
Pearson correlation coefficient (PCC): 0.693
utterance-level-pronounciation-scoring-on3MH
Pearson correlation coefficient (PCC): 0.811
word-level-pronunciation-scoring-on3MH
Pearson correlation coefficient (PCC): 0.694

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种层次化上下文感知的多方面多粒度发音评估建模方法 | 论文 | HyperAI超神经