4 个月前

MTCAE-DFER:多任务级联自动编码器用于动态面部表情识别

MTCAE-DFER:多任务级联自动编码器用于动态面部表情识别

摘要

本文扩展了基于自编码器的多任务学习(MTL)框架中的级联网络分支,用于动态面部表情识别,即多任务级联自编码器动态面部表情识别模型(MTCAE-DFER)。MTCAE-DFER 构建了一个可插拔的级联解码模块,该模块基于视觉变换器(Vision Transformer, ViT)架构,并采用了变换器的解码器概念来重构多头注意力模块。前一个任务的解码器输出作为查询(Q),表示局部动态特征;而共享编码器(Video Masked Autoencoder, VideoMAE)的输出则同时作为键(K)和值(V),表示全局动态特征。这种设置促进了相关任务之间全局和局部动态特征的交互。此外,本提案旨在缓解复杂大模型的过拟合问题。我们利用基于自编码器的多任务级联学习方法,探讨了动态人脸检测和动态人脸关键点对动态面部表情识别的影响,从而增强了模型的泛化能力。在多个公开数据集上进行了广泛的消融实验并与最先进的(State-of-the-Art, SOTA)方法进行对比后,证明了 MTCAE-DFER 模型的鲁棒性和相关任务中全局-局部动态特征交互的有效性。

代码仓库

Peihao-Xiang/MTCAE-DFER
官方
tf
GitHub 中提及

基准测试

基准方法指标
facial-emotion-recognition-on-ravdessMTCAE-DFER
Accuracy: 83.69%
video-emotion-recognition-on-crema-dMTCAE-DFER
Accuracy: 85.03%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MTCAE-DFER:多任务级联自动编码器用于动态面部表情识别 | 论文 | HyperAI超神经