6 个月前

摘要

表示学习与特征解耦在面部表情识别（Facial Expression Recognition, FER）领域引起了广泛关注。情感标签本身具有固有的模糊性，这给传统的监督式表示学习方法带来了挑战。此外，直接从面部表情图像学习映射到情感标签的机制，缺乏显式的监督信号来捕捉细微的面部特征。为此，本文提出一种新型FER模型——扑克脸视觉变换器（Poker Face Vision Transformer，简称PF-ViT），以应对上述问题。PF-ViT旨在通过生成对应“扑克脸”（即无表情状态）的图像，从静态面部图像中分离并识别出与干扰因素无关的情感信息，且无需依赖成对的图像数据。受面部动作编码系统（Facial Action Coding System, FACS）的启发，我们将具表现力的面部表情视为在“扑克脸”（即无情感状态的面部）基础上，由一系列面部肌肉运动组合而成的结果。PF-ViT采用原始的视觉变换器（Vision Transformer）架构，并首先在大规模无情感标签的面部表情数据集上，以掩码自编码器（Masked Autoencoder）方式进行预训练，从而获得高质量的表征。随后，我们基于生成对抗网络（GAN）框架对PF-ViT进行训练。在训练过程中，辅助任务——扑克脸生成，有效促进了情感相关与情感无关特征之间的解耦，引导FER模型全面捕捉具有判别性的面部细节。定量与定性实验结果均验证了所提方法的有效性，在四个主流FER数据集上的表现均超越现有最先进方法。

源 PDF