4 个月前

基于深度卷积循环神经网络的语言识别

基于深度卷积循环神经网络的语言识别

摘要

语言识别(LID)系统用于对给定音频样本中的口语进行分类,通常是许多口语处理任务(如自动语音识别(ASR)系统)的第一步。没有自动语言检测,语音片段无法正确解析,语法规则也无法应用,导致后续的语音识别步骤失败。我们提出了一种在图像域而非音频域解决该问题的LID系统。该系统使用一种混合卷积递归神经网络(CRNN),对提供的音频片段的频谱图图像进行操作。通过广泛的实验,我们展示了该模型适用于多种噪声场景,并且可以轻松扩展到先前未知的语言,同时保持其分类准确性。我们向社区发布了我们的代码和一个大规模的LID系统训练集。

代码仓库

基准测试

基准方法指标
spoken-language-identification-on-youtubeInception-v3 CRNN
Accuracy : 0.96
F1 Score: 0.96
spoken-language-identification-on-youtubeCRNN
Accuracy : 0.91
F1 Score: 0.91
spoken-language-identification-on-youtube-1Inception-v3 CRNN
Accuracy : 0.91
F1 Score: 0.91
spoken-language-identification-on-youtube-1CRNN
Accuracy : 0.63
F1 Score: 0.63
spoken-language-identification-on-youtube-2Inception-v3 CRNN
Accuracy : 0.93
F1 Score: 0.93
spoken-language-identification-on-youtube-2CRNN
Accuracy : 0.82
F1 Score: 0.83
spoken-language-identification-on-youtube-3Inception-v3 CRNN
Accuracy : 0.89
F1 Score: 0.89
spoken-language-identification-on-youtube-3CRNN
Accuracy : 0.70
F1 Score: 0.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度卷积循环神经网络的语言识别 | 论文 | HyperAI超神经