3 个月前

一种面向多参与者对话中情感识别的面部表情感知多模态多任务学习框架

一种面向多参与者对话中情感识别的面部表情感知多模态多任务学习框架

摘要

多人群对话中的多模态情感识别(Multimodal Emotion Recognition in Multiparty Conversations, MERMC)近年来受到广泛关注。由于多人群对话场景中视觉信息的复杂性,以往大多数MERMC研究主要聚焦于文本和音频模态,而忽略了视觉信息的重要性。近年来,一些研究尝试通过提取人脸序列作为视觉特征,揭示了视觉信息在MERMC任务中的关键作用。然而,现有方法在处理某一话语时,所提取的人脸序列可能包含多个说话者的人脸,这不可避免地引入噪声,影响真实说话者情感预测的准确性。为解决这一问题,本文提出一种两阶段框架——面向面部表情的多模态多任务学习方法(Facial expression-aware Multimodal Multi-Task learning, FacialMMT)。首先,设计了一种流水线式方法,用于精确提取每个话语中真实说话者的人脸序列,该方法包含多模态人脸识别、无监督人脸聚类和人脸匹配三个步骤。在获得高质量的人脸序列后,进一步提出一种多模态面部表情感知的情感识别模型,该模型利用帧级面部表情分布信息,结合多任务学习机制,有效提升话语级情感识别的性能。在基准数据集MELD上的实验结果表明,所提出的FacialMMT框架在情感识别任务中具有显著有效性。相关源代码已公开发布于:https://github.com/NUSTM/FacialMMT。

基准测试

基准方法指标
emotion-recognition-in-conversation-on-meldFacialMMT
Weighted-F1: 66.73

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种面向多参与者对话中情感识别的面部表情感知多模态多任务学习框架 | 论文 | HyperAI超神经