4 个月前

MultiMAE-DER:多模态掩码自动编码器用于动态情感识别

MultiMAE-DER:多模态掩码自动编码器用于动态情感识别

摘要

本文提出了一种用于动态情感识别的多模态数据处理新方法,称为多模态掩码自动编码器动态情感识别(MultiMAE-DER)。MultiMAE-DER 利用了视觉和音频模态在时空序列中紧密相关的表示信息。通过利用预训练的掩码自动编码器模型,MultiMAE-DER 仅需简单直接的微调即可实现。为了进一步提升 MultiMAE-DER 的性能,研究者优化了六种多模态输入序列的融合策略。这些策略解决了跨域数据在空间、时间和时空序列中的动态特征相关性问题。与现有的最先进的多模态监督学习模型相比,MultiMAE-DER 在 RAVDESS 数据集上将加权平均召回率(WAR)提高了 4.41%,在 CREMAD 数据集上提高了 2.06%。此外,与最先进的多模态自监督学习模型相比,MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。

代码仓库

Peihao-Xiang/MultiMAE-DFER
官方
tf
GitHub 中提及

基准测试

基准方法指标
emotion-recognition-on-ravdessMultiMAE-DER
WAR: 83.61%
multimodal-emotion-recognition-on-iemocap-4MultiMAE-DER
Weighted Recall: 63.73
video-emotion-recognition-on-crema-dMultiMAE-DER
WAR: 79.36%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MultiMAE-DER:多模态掩码自动编码器用于动态情感识别 | 论文 | HyperAI超神经