3 个月前

基于深度神经网络的波斯语情感识别

基于深度神经网络的波斯语情感识别

摘要

语音情感识别(Speech Emotion Recognition, SER)在人机交互(Human-Computer Interaction, HCI)中具有重要意义,它能够深化对交互情境的理解,从而实现更高效、更自然的人机互动。近年来,多种机器学习与深度学习(Deep Learning, DL)算法被提出,以提升SER技术的性能。然而,语音情感的识别效果依赖于表达方式,而不同语言间的情感表达存在差异。本文针对波斯语(Farsi/Persian)这一语言特点,进一步探讨其在情感识别中的关键影响因素。研究基于2018年发布的Sharif情感语音数据库(ShEMO),系统评估了多种深度学习技术。通过结合低层与高层信号特征,以及不同的深度神经网络和机器学习方法,实验取得了未加权准确率(Unweighted Accuracy, UA)65.20%和加权准确率(Weighted Accuracy, WA)78.29%的性能表现。

基准测试

基准方法指标
speech-emotion-recognition-on-shemoCNN (1D)
Unweighted Accuracy: 65.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度神经网络的波斯语情感识别 | 论文 | HyperAI超神经