4 个月前

探索音频-视频情感识别中的情感特征及融合策略

探索音频-视频情感识别中的情感特征及融合策略

摘要

基于音视频的情感识别旨在将给定的视频分类为基本情感。本文描述了我们在2019年EmotiW挑战赛中的方法,主要探讨了音频和视觉模态的情感特征及其融合策略。在情感特征方面,我们研究了语音频谱图和Log Mel频谱图(Log Mel-spectrogram)的音频特征,并评估了几种不同的卷积神经网络(CNN)模型和不同的情感预训练策略下的面部特征。在融合策略方面,我们探讨了模态内和跨模态的融合方法,例如设计注意力机制以突出重要的情感特征,研究特征拼接和因子分解双线性池化(Factorized Bilinear Pooling, FBP)用于跨模态特征融合。经过仔细评估,我们在AFEW验证集上获得了65.5%的准确率,在测试集上获得了62.48%的准确率,并在该挑战赛中排名第三。

基准测试

基准方法指标
facial-expression-recognition-on-acted-facialLResNet50E-IR (5 models with augmentation)
Accuracy(on validation set): 65.5%
facial-expression-recognition-on-acted-facialResNet50
Accuracy(on validation set): 65.5%
facial-expression-recognition-on-acted-facialLResNet50E-IR (1 model)
Accuracy(on validation set): 61.1%
facial-expression-recognition-on-acted-facialLResNet50E-IR (1 model with augmentation)
Accuracy(on validation set): 63.7%
facial-expression-recognition-on-affectnetLResNet50E-IR
Accuracy (8 emotion): 53.925
facial-expression-recognition-on-fer-1LResNet50E-IR
Accuracy: 89.257

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索音频-视频情感识别中的情感特征及融合策略 | 论文 | HyperAI超神经