3 个月前

基于听觉Transformer与面部动作单元在RAVDESS数据集上的多模态情感识别方案

基于听觉Transformer与面部动作单元在RAVDESS数据集上的多模态情感识别方案

摘要

情感识别因其在医疗、自动驾驶等多个领域的广泛应用而受到研究界的广泛关注。本文提出了一种自动情感识别系统,该系统由语音情感识别(Speech Emotion Recognition, SER)模块和面部情感识别(Facial Emotion Recognition, FER)模块组成。在SER部分,我们评估了基于预训练的xlsr-Wav2Vec2.0 Transformer模型,并采用两种迁移学习策略:嵌入特征提取与微调(fine-tuning)。实验结果表明,通过在模型顶部添加多层感知机(MLP)并对整个模型进行微调,取得了最佳的识别准确率。这一结果证实,相较于从零开始训练,利用预训练网络中已有的知识进行微调能够显著提升训练的鲁棒性,且初始模型结构与目标任务具有较高的相似性时效果更优。在面部情感识别方面,我们从视频中提取了面部动作单元(Action Units, AUs),并对比了静态模型与序列模型在性能上的差异。实验结果表明,序列模型相较于静态模型仅以微弱优势胜出。误差分析进一步指出,通过引入对高情感负荷帧的检测器,可有效提升视觉系统的性能,这为未来探索从视频中更高效学习情感特征开辟了新的研究方向。最后,采用晚期融合(late fusion)策略将两种模态的信息进行整合,在RAVDESS数据集上进行基于个体的5折交叉验证(subject-wise 5-CV),系统在识别八类情绪时达到了86.70%的准确率。实验结果表明,语音与面部两种模态均蕴含对用户情绪状态具有判别意义的信息,二者融合能够显著提升整体系统的识别性能。

基准测试

基准方法指标
emotion-recognition-on-ravdessLogisticRegression on posteriors of xlsr-Wav2Vec2.0&bi-LSTM+Attention
Accuracy: 86.70%
facial-emotion-recognition-on-ravdessbi-LSTM+Attention
Accuracy: 62.13%
speech-emotion-recognition-on-ravdessxlsr-Wav2Vec2.0(FineTuning)
Accuracy: 81.82%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于听觉Transformer与面部动作单元在RAVDESS数据集上的多模态情感识别方案 | 论文 | HyperAI超神经