3 个月前

从静态到动态:面向视频中面部表情识别的地标感知图像模型自适应方法

从静态到动态:面向视频中面部表情识别的地标感知图像模型自适应方法

摘要

在真实场景下的动态面部表情识别(Dynamic Facial Expression Recognition, DFER)仍受限于数据瓶颈,例如姿态、遮挡和光照条件的多样性不足,以及面部表情本身固有的模糊性。相比之下,静态面部表情识别(Static Facial Expression Recognition, SFER)目前展现出更高的性能,并能受益于更为丰富且高质量的训练数据。此外,DFER中的外观特征与动态依赖关系尚未得到充分探索。为应对上述挑战,本文提出一种新颖的“静态到动态”模型(Static-to-Dynamic model, S2D),该模型充分利用现有的SFER知识,并隐式地挖掘从提取的面部关键点感知特征中蕴含的动态信息,从而显著提升DFER的性能。具体而言,我们首先构建并训练了一个用于SFER的图像模型,该模型仅包含标准的视觉Transformer(Vision Transformer, ViT)和多视角互补提示器(Multi-View Complementary Prompters, MCPs)。随后,通过在该图像模型中插入时序建模适配器(Temporal-Modeling Adapters, TMAs),构建出用于DFER的视频模型(即S2D)。MCPs通过使用现成的面部关键点检测器推断出的、具有关键点感知特性的特征,增强面部表情的表征能力;而TMAs则用于捕捉并建模面部表情随时间变化的动态关系,从而有效将预训练的图像模型扩展至视频任务。值得注意的是,MCPs与TMAs仅向原始图像模型引入了少量可训练参数(增加少于10%),显著保持了模型的高效性。此外,我们提出一种基于情感锚点(Emotion-Anchors,即每类情绪的参考样本)的新型自蒸馏损失函数,以缓解模糊情绪标签带来的负面影响,进一步提升S2D模型的性能。在多个主流SFER与DFER数据集上的实验结果表明,本方法达到了当前最先进的识别水平。

代码仓库

msa-lmc/s2d
官方
pytorch
FER-LMC/S2D
官方
pytorch

基准测试

基准方法指标
facial-expression-recognition-on-affectnetS2D
Accuracy (7 emotion): 67.62
Accuracy (8 emotion): 63.06
facial-expression-recognition-on-raf-dbS2D
Overall Accuracy: 92.57

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从静态到动态:面向视频中面部表情识别的地标感知图像模型自适应方法 | 论文 | HyperAI超神经