3 个月前

寻找一种稳健的面部表情识别模型:一项大规模视觉跨语料库研究

寻找一种稳健的面部表情识别模型:一项大规模视觉跨语料库研究

摘要

过去二十年来,众多研究者一直在致力于构建稳健的情绪识别系统。这类系统有望将人机交互提升至全新水平,通过分析用户的情绪状态,实现更加自然的反馈。然而,该领域的一个关键挑战在于模型泛化能力不足:当模型在某一数据集上训练并在另一数据集上评估时,其性能往往出现显著下降。尽管已有部分研究尝试解决该问题,但视觉模态的研究仍相对薄弱。为此,本文基于八个在采集条件、参与者外貌特征以及数据处理复杂度方面各不相同的语料库,开展了一项视觉跨语料库的系统性研究。我们提出了一种基于视觉的端到端情绪识别框架,该框架包含一个鲁棒的预训练主干网络(backbone model)和一个时序子系统,用于建模视频序列中多帧之间的时序依赖关系。此外,本文对主干模型的优缺点及错误模式进行了深入分析,充分验证了其出色的泛化能力。实验结果表明,该主干模型在AffectNet数据集上取得了66.4%的准确率,超越了当前所有最先进的方法。同时,在跨语料库实验中,CNN-LSTM模型在动态视觉数据集上也表现出良好的性能,其结果与当前最先进水平相当。为促进后续研究,我们已将主干模型及CNN-LSTM模型开源,相关代码和模型可于GitHub平台获取。

基准测试

基准方法指标
facial-expression-recognition-on-aff-wild2EmoAffectNet LSTM
UAR: 52.9
facial-expression-recognition-on-affectnetEmoAffectNet
Accuracy (7 emotion): 66.49
facial-expression-recognition-on-crema-dEmoAffectNet LSTM
UAR: 79.0
facial-expression-recognition-on-ravdessEmoAffectNet LSTM
UAR: 69.7
facial-expression-recognition-on-saveeEmoAffectNet LSTM
UAR: 82.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
寻找一种稳健的面部表情识别模型:一项大规模视觉跨语料库研究 | 论文 | HyperAI超神经