4 个月前

基于层次结构的多方面注意力发音评估

基于层次结构的多方面注意力发音评估

摘要

自动发音评估是计算机辅助发音训练系统的重要组成部分。为了提供深入的反馈,需要在音素、单词和句子等多个粒度层面上,从准确性、流利性和完整性等多个方面对发音进行评分。然而,现有的多方面多粒度方法同时预测所有层面的所有方面,因此难以捕捉音素、单词和句子之间的语言层次关系。这一局限性进一步导致了在同一语言单元内不同方面之间密切关系的忽视。本文提出了一种基于多层次发音评估与多方面注意力(HiPAMA)的模型,该模型通过分层次表示粒度级别来直接捕捉其语言结构,并引入了多方面注意力机制,以反映同一层面内各方面的关联,从而生成更具内涵的表示。通过从粒度层面和方面层面获取关系信息,HiPAMA能够充分利用多任务学习的优势。在speachocean762数据集上的实验结果显著改善,证明了HiPAMA的鲁棒性,尤其是在那些难以评估的方面。

代码仓库

doheejin/HiPAMA
官方
pytorch

基准测试

基准方法指标
phone-level-pronunciation-scoring-onHiPAMA-Librispeech
Pearson correlation coefficient (PCC): 0.62
utterance-level-pronounciation-scoring-onHiPAMA-Librispeech
Pearson correlation coefficient (PCC): 0.754
word-level-pronunciation-scoring-onHiPAMA-Librispeech
Pearson correlation coefficient (PCC): 0.59

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于层次结构的多方面注意力发音评估 | 论文 | HyperAI超神经