4 个月前

基于卷积神经网络的口语语言识别

基于卷积神经网络的口语语言识别

摘要

语言识别(LI)是多个语音处理系统中的重要第一步。随着基于语音的助手数量不断增加,语音语言识别已成为一个广泛研究的领域。为了应对语言识别问题,我们可以采取隐式方法,即仅存在某种语言的语音数据,或者显式方法,即同时提供该语言的文本及其对应的转录。本文侧重于隐式方法,因为缺乏转录数据。本文对现有的模型进行了基准测试,并提出了一种新的基于注意力机制的语言识别模型,该模型以对数梅尔频谱图图像作为输入。我们还展示了原始波形作为神经网络模型特征在语言识别任务中的有效性。为了训练和评估模型,我们使用VoxForge数据集对六种语言(英语、法语、德语、西班牙语、俄语和意大利语)进行了分类,准确率达到95.4%,并对四种语言(英语、法语、德语和西班牙语)进行了分类,准确率达到96.3%。该方法可以进一步扩展以包含更多语言。

基准测试

基准方法指标
keyword-spotting-on-voxforge1D-ConvNet
Accuracy (%): 93.7
keyword-spotting-on-voxforge2D-ConvNet
Accuracy (%): 95.4
spoken-language-identification-on-voxforge2D ConvNet(MixUp=YES)
Accuracy (%): 95.4
spoken-language-identification-on-voxforge2D ConvNet(MixUp=NO)
Accuracy (%): 94.3
spoken-language-identification-on-voxforge1D ConvNet(MixUp=NO)
Accuracy (%): 93.7
spoken-language-identification-on-voxforge2D ConvNet with Attention and GRU(MixUp=YES)
Accuracy (%): 95.0
spoken-language-identification-on-voxforge-11D ConvNet(MixUp=NO)
Accuracy (%): 94.4
spoken-language-identification-on-voxforge-12D ConvNet with Attention and GRU(MixUp=YES)
Accuracy (%): 93.7
spoken-language-identification-on-voxforge-12D ConvNet with Attention and GRU(MixUp=NO)
Accuracy (%): 94.7
spoken-language-identification-on-voxforge-12D ConvNet(MixUp=NO)
Accuracy (%): 96.0
spoken-language-identification-on-voxforge-12D ConvNet(MixUp=YES)
Accuracy (%): 96.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于卷积神经网络的口语语言识别 | 论文 | HyperAI超神经