3 个月前

通过视觉Transformer生成扑克脸实现面部表情中的情绪分离与识别

通过视觉Transformer生成扑克脸实现面部表情中的情绪分离与识别

摘要

表示学习与特征解耦在面部表情识别(Facial Expression Recognition, FER)领域引起了广泛关注。情感标签本身具有固有的模糊性,这给传统的监督式表示学习方法带来了挑战。此外,直接从面部表情图像学习映射到情感标签的机制,缺乏显式的监督信号来捕捉细微的面部特征。为此,本文提出一种新型FER模型——扑克脸视觉变换器(Poker Face Vision Transformer,简称PF-ViT),以应对上述问题。PF-ViT旨在通过生成对应“扑克脸”(即无表情状态)的图像,从静态面部图像中分离并识别出与干扰因素无关的情感信息,且无需依赖成对的图像数据。受面部动作编码系统(Facial Action Coding System, FACS)的启发,我们将具表现力的面部表情视为在“扑克脸”(即无情感状态的面部)基础上,由一系列面部肌肉运动组合而成的结果。PF-ViT采用原始的视觉变换器(Vision Transformer)架构,并首先在大规模无情感标签的面部表情数据集上,以掩码自编码器(Masked Autoencoder)方式进行预训练,从而获得高质量的表征。随后,我们基于生成对抗网络(GAN)框架对PF-ViT进行训练。在训练过程中,辅助任务——扑克脸生成,有效促进了情感相关与情感无关特征之间的解耦,引导FER模型全面捕捉具有判别性的面部细节。定量与定性实验结果均验证了所提方法的有效性,在四个主流FER数据集上的表现均超越现有最先进方法。

基准测试

基准方法指标
facial-expression-recognition-on-affectnetVit-base + MAE
Accuracy (8 emotion): 62.42
facial-expression-recognition-on-affectnetViT-base
Accuracy (8 emotion): 57.99
facial-expression-recognition-on-affectnetViT-tiny
Accuracy (8 emotion): 58.28
facial-expression-recognition-on-fer-1ViT-base
Accuracy: 88.91
facial-expression-recognition-on-fer-1Vit-base + MAE
Accuracy: 90.18
facial-expression-recognition-on-fer-1ViT-tiny
Accuracy: 88.56
facial-expression-recognition-on-raf-dbViT-tiny
Overall Accuracy: 87.03
facial-expression-recognition-on-raf-dbViT-base + MAE
Overall Accuracy: 91.07
facial-expression-recognition-on-raf-dbViT-base
Overall Accuracy: 87.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过视觉Transformer生成扑克脸实现面部表情中的情绪分离与识别 | 论文 | HyperAI超神经