HyperAIHyperAI

Command Palette

Search for a command to run...

探索音频-视频情感识别中的情感特征及融合策略

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

摘要

基于音视频的情感识别旨在将给定的视频分类为基本情感。本文描述了我们在2019年EmotiW挑战赛中的方法,主要探讨了音频和视觉模态的情感特征及其融合策略。在情感特征方面,我们研究了语音频谱图和Log Mel频谱图(Log Mel-spectrogram)的音频特征,并评估了几种不同的卷积神经网络(CNN)模型和不同的情感预训练策略下的面部特征。在融合策略方面,我们探讨了模态内和跨模态的融合方法,例如设计注意力机制以突出重要的情感特征,研究特征拼接和因子分解双线性池化(Factorized Bilinear Pooling, FBP)用于跨模态特征融合。经过仔细评估,我们在AFEW验证集上获得了65.5%的准确率,在测试集上获得了62.48%的准确率,并在该挑战赛中排名第三。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供