4 个月前

注意力机制是否总是必要?——基于语音的语言识别案例研究

注意力机制是否总是必要?——基于语音的语言识别案例研究

摘要

语言识别(LID)是自动语音识别(ASR)领域中的一个关键预处理过程,涉及从音频样本中识别出所使用的语言。当前能够处理多种语言的系统通常需要用户在使用前明确指定一种或多种语言。在多语言环境中,当ASR系统无法理解所使用的语言时,LID任务显得尤为重要,因为这会导致语音识别失败。本研究介绍了一种基于卷积循环神经网络(CRNN)的语言识别方法,该方法设计用于处理音频样本的梅尔频率倒谱系数(MFCC)特征。此外,我们复现了一些最先进的方法,特别是卷积神经网络(CNN)和基于注意力机制的卷积循环神经网络(带有注意力机制的CRNN),并将其与我们的CRNN方法进行了对比分析。我们在十三种不同的印度语言上进行了全面评估,结果表明我们的模型分类准确率超过98%。对于语言学上相似的语言,LID模型表现出高水平的性能,准确率范围为97%至100%。所提出的LID模型具有很高的扩展性,可以应用于其他语言,并且在噪声环境下表现出较强的鲁棒性,在应用于欧洲语言(EU)数据集时,在有噪声的情况下仍能达到91.2%的准确率。

基准测试

基准方法指标
spoken-language-identification-on-indicttsCRNN
Classification Accuracy: 0.987
spoken-language-identification-on-indicttsCNN
Classification Accuracy: 0.983
spoken-language-identification-on-indicttsCRNN Attention
Classification Accuracy: 0.987
spoken-language-identification-on-youtubeCRNN
Accuracy : 0.967
spoken-language-identification-on-youtubeCRNN Attention
Accuracy : 0.966
spoken-language-identification-on-youtubeCNN
Accuracy : 0.948
spoken-language-identification-on-youtube-1CNN
Accuracy : 0.871
spoken-language-identification-on-youtube-1CRNN Attention
Accuracy : 0.888
spoken-language-identification-on-youtube-1CRNN
Accuracy : 0.912

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
注意力机制是否总是必要?——基于语音的语言识别案例研究 | 论文 | HyperAI超神经