4 个月前

多模态视听学习在情感识别中的应用

多模态视听学习在情感识别中的应用

摘要

当前大多数视听情感识别模型缺乏在实际应用中部署所需的灵活性。我们设想一个能够在仅有一种模态可用时仍能工作的多模态系统,并且该系统可以互换地用于预测情感属性或识别类别情感。在多模态情感识别系统中实现这种灵活性非常困难,因为准确解释和整合不同数据源本身存在固有的挑战。同时,如何稳健地处理缺失或部分信息,以及在回归任务和分类任务之间直接切换也是一个难题。本研究提出了一种通用的视听学习(VAVL)框架,用于处理单模态和多模态系统的情感回归或情感分类任务。我们实现了一个视听框架,即使训练集的一部分没有音频和视频配对数据(即仅有音频或仅有视频),该框架也可以进行训练。通过使用视听共享层、共享层上的残差连接以及单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强大的基线模型。特别值得一提的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中达到了新的最先进水平。

基准测试

基准方法指标
video-emotion-recognition-on-crema-dVAVL
Accuracy: 82.60%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态视听学习在情感识别中的应用 | 论文 | HyperAI超神经