
摘要
表现最佳的地标估计算法基于利用大型卷积神经网络(CNN)出色地表示局部外观的能力。然而,众所周知,这些算法只能学习到较弱的空间关系。为了解决这一问题,我们提出了一种结合CNN和图注意力网络(Graph Attention Network, GAN)回归器级联的模型。为此,我们引入了一种编码方法,该方法联合表示面部地标的外观和位置,并通过一种注意力机制根据其可靠性对信息进行加权。此外,我们采用多任务方法初始化图节点的位置,并提出了从粗到精的地标描述方案。实验结果证实,所提出的模型能够学习到人脸结构的全局表示,在头部姿态和地标估计的热门基准测试中取得了最佳性能。我们的模型在涉及地标局部外观大幅变化的情况下表现出最显著的改进。
代码仓库
andresprados/spiga
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-alignment-on-300w | SPIGA | NME_inter-ocular (%, Challenge): 4.66 NME_inter-ocular (%, Common): 2.59 NME_inter-ocular (%, Full): 2.99 NME_inter-pupil (%, Challenge): 6.73 NME_inter-pupil (%, Common): 3.59 NME_inter-pupil (%, Full): 4.20 |
| face-alignment-on-300w-common | SPIGA | NME: 2.59 |
| face-alignment-on-300w-split-2 | SPIGA | AUC@7 (box): 71.0 AUC@8 (inter-ocular): 57.27 FR@8 (inter-ocular): 0.67 NME (box): 2.03 NME (inter-ocular): 3.43 |
| face-alignment-on-cofw-68 | SPIGA | AUC@7 (box): 64.1 NME (box): 2.52 NME (inter-ocular): 3.93 |
| face-alignment-on-merl-rav | SPIGA | AUC@7 (box) : 78.47 NME (box): 1.51 |
| face-alignment-on-wflw | SPIGA | AUC@10 (inter-ocular): 60.56 FR@10 (inter-ocular): 2.08 NME (inter-ocular): 4.06 |
| face-alignment-on-wfw-extra-data | SPIGA | AUC@10 (inter-ocular): 60.56 FR@10 (inter-ocular): 2.08 NME (inter-ocular): 4.06 |
| facial-landmark-detection-on-300w | SPIGA (Inter-ocular Norm) | NME: 2.99 |
| head-pose-estimation-on-wflw | SPIGA | MAE mean (º): 1.52 MAE pitch (º): 1.86 MAE roll (º): 0.93 MAE yaw (º): 1.78 |
| pose-estimation-on-300w-full | SPIGA | MAE mean (º): 1.29 MAE pitch (º): 1.70 MAE roll (º): 0.77 MAE yaw (º): 1.41 |
| pose-estimation-on-merl-rav | SPIGA | MAE mean (º): 2.39 MAE pitch (º): 2.24 MAE roll (º): 1.71 MAE yaw (º): 3.23 |