3 个月前

浅层网络与深层神经网络的比较:基于音频数据的人类情感分类的实证分析

浅层网络与深层神经网络的比较:基于音频数据的人类情感分类的实证分析

摘要

人类情绪可通过多种方式识别,包括分析语音的声调特征、言语表达前的面部表情,以及无需言语即可传达情绪的肢体动作。准确识别个体的情绪状态,有助于理解其所处情境并作出相应反应。这一现象在日常人机交互的反馈系统中同样成立,尤其是在智能家居解决方案中所采用的系统。自动化情绪识别领域涉及多个研究方向的应用,涵盖计算机视觉、生理学乃至人工智能等多个学科。本研究聚焦于基于语音表达方式,将情绪划分为八类:中性、喜悦、悲伤、愤怒、平静、恐惧、厌恶与惊讶,所采用的数据来源于“瑞尔森音频-视频情绪语音与歌曲数据库”(Ryerson Audio-Visual Database of Emotional Speech and Song, RAVDESS)。本文提出一种新颖的音频对话情绪分类方法,基于语音信号进行情绪识别。该基于声学特征的情绪分类方法不依赖于特定语言,因而具备跨语言情绪识别的潜力。本研究的主要目标是构建一个能够实时自动识别情绪的系统。通过一系列仿真实验,我们采用浅层卷积神经网络(shallow CNN)模型,取得了最高达82.99%的分类准确率,验证了所提方法的有效性与可行性。

基准测试

基准方法指标
speech-emotion-recognition-on-ravdessCNN-X (Shallow CNN)
Accuracy: 82.99%
F1 Score: 0.82
Precision: 0.82
Recall: 0.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
浅层网络与深层神经网络的比较:基于音频数据的人类情感分类的实证分析 | 论文 | HyperAI超神经