3 个月前

基于压缩与激励机制的视觉Transformer在面部表情识别中的学习

基于压缩与激励机制的视觉Transformer在面部表情识别中的学习

摘要

近几十年来,随着多种面部表情数据库的公开,面部表情识别(Facial Expression Recognition, FER)任务受到了广泛关注。然而,现有数据库来源多样,给面部表情识别任务带来了诸多挑战。这些挑战通常通过卷积神经网络(Convolutional Neural Network, CNN)架构来应对。与CNN模型不同,近年来基于注意力机制的Transformer模型被提出用于解决视觉任务。然而,Transformer模型的一个主要问题在于其训练通常需要大量数据,而大多数FER数据库的数据量相较于其他视觉应用仍显不足。为此,本文提出一种将视觉Transformer与挤压-激励(Squeeze-and-Excitation, SE)模块相结合的联合学习方法,以提升FER任务的性能。所提出的方法在多个公开可用的FER数据库(包括CK+、JAFFE、RAF-DB和SFEW)上进行了评估。实验结果表明,该模型在CK+和SFEW数据集上优于当前最先进的方法,并在JAFFE和RAF-DB数据集上取得了具有竞争力的性能。

基准测试

基准方法指标
facial-expression-recognition-on-ckViT + SE
Accuracy (7 emotion): 99.8
facial-expression-recognition-on-jaffeViT
Accuracy: 94.83
facial-expression-recognition-on-rafdViT + SE
Accuracy: 87.22
facial-expression-recognition-on-sfewViT + SE
Accuracy: 54.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于压缩与激励机制的视觉Transformer在面部表情识别中的学习 | 论文 | HyperAI超神经