
摘要
我们提出了一种基于深度学习的三维面部表情系数估计方法。与以往工作不同,本方法无需依赖面部关键点检测作为中间步骤。近期研究已表明,卷积神经网络(CNN)可直接从图像灰度值中回归出准确且具有判别性的三维可变形模型(3DMM)表示。通过省去面部关键点检测环节,这些方法能够在前所未有的野外复杂视角条件下,成功估计被遮挡面部的三维形状。在此基础上,本文进一步证明,面部表情同样可以通过一种鲁棒、深层且无需关键点的端到端方法进行有效估计。我们提出的ExpNet CNN模型直接作用于人脸图像的像素强度,回归出一个29维的三维表情系数向量。为训练该网络,我们提出了一种独特且高效的训练数据采集方法,充分利用了深度网络对训练标签噪声的强鲁棒性。此外,我们还引入了一种新颖的评估指标,用于衡量所估计表情系数的准确性:即通过其在CK+和EmotiW-17情绪识别基准数据集上对表情情感的捕捉能力进行量化评估。实验结果表明,与当前最先进的基于关键点检测的方法相比,我们的ExpNet所生成的表情系数在区分不同面部情绪方面表现更优。尤其值得注意的是,随着图像尺度减小,该优势进一步增强,表明ExpNet在应对尺度变化时比关键点检测方法具有更强的鲁棒性。最后,在达到相当精度水平的前提下,我们的ExpNet相比现有方法在计算速度上提升了数个数量级。
代码仓库
fengju514/Expression-Net
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-face-reconstruction-on-realy | ExpNet | @cheek: 1.717 (±0.590) @forehead: 3.084 (±1.005) @mouth: 1.912 (±0.450) @nose: 2.509 (±0.486) all: 2.306 |
| 3d-face-reconstruction-on-realy-side-view | ExpNet | @cheek: 1.842 (±0.609) @forehead: 3.393 (±1.076) @mouth: 2.160 (±0.448) @nose: 2.508 (±0.491) all: 2.476 |
| 3d-facial-expression-recognition-on-2017_test | aan | 14 gestures accuracy: 2 |