4 个月前

摘要

我们提出了一种基于深度学习的三维面部表情系数估计方法。与以往工作不同，本方法无需依赖面部关键点检测作为中间步骤。近期研究已表明，卷积神经网络（CNN）可直接从图像灰度值中回归出准确且具有判别性的三维可变形模型（3DMM）表示。通过省去面部关键点检测环节，这些方法能够在前所未有的野外复杂视角条件下，成功估计被遮挡面部的三维形状。在此基础上，本文进一步证明，面部表情同样可以通过一种鲁棒、深层且无需关键点的端到端方法进行有效估计。我们提出的ExpNet CNN模型直接作用于人脸图像的像素强度，回归出一个29维的三维表情系数向量。为训练该网络，我们提出了一种独特且高效的训练数据采集方法，充分利用了深度网络对训练标签噪声的强鲁棒性。此外，我们还引入了一种新颖的评估指标，用于衡量所估计表情系数的准确性：即通过其在CK+和EmotiW-17情绪识别基准数据集上对表情情感的捕捉能力进行量化评估。实验结果表明，与当前最先进的基于关键点检测的方法相比，我们的ExpNet所生成的表情系数在区分不同面部情绪方面表现更优。尤其值得注意的是，随着图像尺度减小，该优势进一步增强，表明ExpNet在应对尺度变化时比关键点检测方法具有更强的鲁棒性。最后，在达到相当精度水平的前提下，我们的ExpNet相比现有方法在计算速度上提升了数个数量级。

源 PDF