3 个月前

基于深度与无监督特征的多语言语音情感识别

基于深度与无监督特征的多语言语音情感识别

摘要

本文提出了一种用于多语言口语语句情感识别的卷积神经网络(Convolutional Neural Network)。本研究旨在构建一个能够融合文本与声学信息、并兼容多种语言的情感识别模型。所提出的模型采用端到端的深度架构,直接输入原始文本与音频数据,并通过卷积层提取多层次的分类特征。此外,我们证明了该模型得益于多语言无监督文本特征的使用,在多种语言上均能取得优异的性能表现。值得一提的是,本方案无需对文本与音频进行词级或音素级对齐。所提出的模型PATHOSnet在多个包含不同口语语言的数据集(IEMOCAP、EmoFilm、SES和AESI)上进行了训练与评估。在训练前,我们仅在IEMOCAP数据集上进行超参数调优,该数据集提供了具有情感内容的英语口语录音与真实转录文本。最终模型在所选数据集上对四种情感类别均达到了当前最先进的性能水平。

基准测试

基准方法指标
multimodal-emotion-recognition-on-iemocap-4PATHOSnet v2
Accuracy: 80.4
F1: 78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度与无监督特征的多语言语音情感识别 | 论文 | HyperAI超神经