8 个月前

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

摘要

基于音视频的情感识别旨在将给定的视频分类为基本情感。本文描述了我们在2019年EmotiW挑战赛中的方法，主要探讨了音频和视觉模态的情感特征及其融合策略。在情感特征方面，我们研究了语音频谱图和Log Mel频谱图（Log Mel-spectrogram）的音频特征，并评估了几种不同的卷积神经网络（CNN）模型和不同的情感预训练策略下的面部特征。在融合策略方面，我们探讨了模态内和跨模态的融合方法，例如设计注意力机制以突出重要的情感特征，研究特征拼接和因子分解双线性池化（Factorized Bilinear Pooling, FBP）用于跨模态特征融合。经过仔细评估，我们在AFEW验证集上获得了65.5%的准确率，在测试集上获得了62.48%的准确率，并在该挑战赛中排名第三。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

摘要

基于音视频的情感识别旨在将给定的视频分类为基本情感。本文描述了我们在2019年EmotiW挑战赛中的方法，主要探讨了音频和视觉模态的情感特征及其融合策略。在情感特征方面，我们研究了语音频谱图和Log Mel频谱图（Log Mel-spectrogram）的音频特征，并评估了几种不同的卷积神经网络（CNN）模型和不同的情感预训练策略下的面部特征。在融合策略方面，我们探讨了模态内和跨模态的融合方法，例如设计注意力机制以突出重要的情感特征，研究特征拼接和因子分解双线性池化（Factorized Bilinear Pooling, FBP）用于跨模态特征融合。经过仔细评估，我们在AFEW验证集上获得了65.5%的准确率，在测试集上获得了62.48%的准确率，并在该挑战赛中排名第三。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供