
摘要
主动形状模型(Active Shape Model, ASM)是一种统计形状模型,用于表征目标结构。ASM能够引导机器学习算法,将一组表示物体(如人脸)的点拟合到图像中。本文提出了一种轻量级卷积神经网络(Convolutional Neural Network, CNN)架构,其损失函数引入ASM辅助,用于在复杂场景下实现人脸对齐与头部姿态估计。我们首先利用ASM引导网络学习更平滑的人脸关键点分布;受迁移学习思想的启发,在训练过程中逐步增强回归任务的难度,引导网络向原始关键点分布逼近。我们在损失函数中定义了多任务目标,分别负责人脸关键点检测与人脸姿态估计。通过同时学习多个相关任务,能够产生协同效应,从而提升各任务的性能表现。我们将所提出的ASMNet模型与MobileNetV2(参数量约为ASMNet的两倍)在人脸对齐和姿态估计任务中的性能进行了对比。在多个具有挑战性的数据集上的实验结果表明,采用所提出的ASM辅助损失函数后,ASMNet在人脸对齐任务上的性能可与MobileNetV2相媲美;而在人脸姿态估计任务中,ASMNet的表现显著优于MobileNetV2。相较于众多基于CNN的模型,ASMNet在保持极低参数量和浮点运算量的同时,实现了可接受的人脸关键点检测与姿态估计性能,展现出良好的轻量化与高效性。
代码仓库
aliprf/ASMNet
官方
tf
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-alignment-on-300w | MobileNetV2 | NME_inter-ocular (%, Challenge): 7.35 NME_inter-ocular (%, Common): 3.88 NME_inter-ocular (%, Full): 4.59 |
| face-alignment-on-300w | ASMNet | NME_inter-ocular (%, Challenge): 8.2 NME_inter-ocular (%, Common): 4.82 NME_inter-ocular (%, Full): 5.50 |
| face-alignment-on-wflw | MobileNetV2 | NME (inter-ocular): 9.41 |
| face-alignment-on-wflw | ASMNet | NME (inter-ocular): 10.77 |
| head-pose-estimation-on-cofw | ASMNet | MAE pitch (º): 2.72 MAE yaw (º): 2.91 |
| head-pose-estimation-on-wflw | ASMNet | MAE mean (º): 2.70 MAE pitch (º): 2.93 MAE roll (º): 2.21 MAE yaw (º): 2.97 |
| pose-estimation-on-300w-full | ASMNet | MAE pitch (º): 1.80 MAE roll (º): 1.24 MAE yaw (º): 1.62 |