
摘要
可靠的面部表情学习(Facial Expression Learning, FEL)涉及在现实环境中进行更加可靠、无偏见和准确的预测,这需要有效学习具有区分性的面部表情特征。然而,当前系统在处理FEL任务时面临挑战,主要原因是人们由于独特的面部结构、动作、色调和人口统计学特征而表现出不同的面部表情。有偏见和不平衡的数据集进一步加剧了这一问题,导致预测标签错误和带有偏见。为了解决这些问题,我们引入了GReFEL,该方法利用视觉变换器(Vision Transformers)和一种基于锚点的面部几何感知可靠性平衡模块来应对数据分布不平衡、偏见和不确定性的问题。通过整合局部和全局数据,并使用能够学习不同面部数据点和结构特征的锚点,我们的方法调整了由类内差异、类间相似性和尺度敏感性引起的偏差和错误标记的情绪,从而实现全面、准确且可靠的面部表情预测。广泛的实验结果表明,我们的模型在多种数据集上优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| facial-expression-recognition-on-aff-wild2 | GReFEL | Accuracy: 72.48 |
| facial-expression-recognition-on-fer-1 | GReFEL | Accuracy: 93.09 |
| facial-expression-recognition-on-ferg | GReFEL | Accuracy: 98.18 |
| facial-expression-recognition-on-jaffe | GReFEL | Accuracy: 96.67 |
| facial-expression-recognition-on-raf-db | GReFEL | Overall Accuracy: 92.47 |