3 个月前

基于语音特征与词嵌入的语音情感识别

基于语音特征与词嵌入的语音情感识别

摘要

情感识别可基于多种模态实现自动化。本文提出了一种基于语音特征与词嵌入(word embedding)的分类式语音情感识别方法。文本特征可与语音特征相结合以提升情感识别的准确性,且这两类特征均可从语音中提取。在本研究中,通过去除话语中的静音段,获取语音片段,并从中提取声学特征用于基于语音的情感识别。词嵌入被用作文本情感识别的输入特征,同时提出将语音与文本特征联合使用,以提升整体性能。在模型结构上,采用两层单向长短期记忆网络(LSTM)处理文本特征,而声学特征则通过全连接网络进行处理。随后,通过早期融合(early fusion)方式,利用全连接网络将两个分支的输出进行合并,最终输出四个情感类别之一的预测结果。实验结果表明,语音与文本特征的联合使用在识别准确率上显著优于单一模态:联合模型达到75.49%的准确率,显著高于仅使用语音特征的58.29%,也优于仅使用文本特征的68.01%。该结果在相同数据集与相同模态条件下,也优于此前其他研究者提出的方法。

基准测试

基准方法指标
speech-emotion-recognition-on-iemocapLSTM+FC
F1: -
UA: -
WA: 0.755

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语音特征与词嵌入的语音情感识别 | 论文 | HyperAI超神经