
摘要
深度学习方法在面部关键点检测(FLD)任务中取得了显著的性能提升。然而,在具有挑战性的环境中,如头部姿态变化、夸张表情或不均匀光照条件下,检测关键点仍然是一项难题,这主要是由于高变异性及样本不足所致。这种不足可以归因于模型无法从输入图像中有效获取适当的脸部结构信息。为了解决这一问题,我们提出了一种专门为FLD任务设计的新型图像增强技术,以提高模型对脸部结构的理解能力。为了有效利用新提出的增强技术,我们采用基于Siamese架构的训练机制,并结合基于深度规范相关分析(DCCA)的损失函数,实现从输入图像的两个不同视角中集体学习高层次特征表示。此外,我们还采用了Transformer + CNN架构的网络,并引入了自定义沙漏模块作为Siamese框架的强大骨干。大量实验表明,我们的方法在多个基准数据集上优于多种最先进的方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-alignment-on-300w | FiFA | NME_inter-ocular (%, Challenge): 4.47 NME_inter-ocular (%, Common): 2.51 NME_inter-ocular (%, Full): 2.89 |
| face-alignment-on-aflw-19 | FiFA | AUC_box@0.07 (%, Full): 81.8 NME_box (%, Full): 1.31 NME_diag (%, Frontal): 0.80 NME_diag (%, Full): 0.92 |
| face-alignment-on-cofw | FiFA | NME (inter-ocular): 2.96 |
| face-alignment-on-wflw | FiFA | AUC@10 (inter-ocular): 61.78 FR@10 (inter-ocular): 1.60 NME (inter-ocular): 3.89 |
| facial-landmark-detection-on-300w | FiFA | NME: 2.89 |
| facial-landmark-detection-on-aflw-front | FiFA | Mean NME: 0.80 Mean NME : 0.80 NME: 0.80 |
| facial-landmark-detection-on-aflw-full | FiFA | Mean NME: 0.92 Mean NME : 0.92 NME: 0.92 |
| facial-landmark-detection-on-cofw | FiFA | NME: 2.96 NME (inter-ocular): 2.96 |
| facial-landmark-detection-on-wflw-1 | FiFA | AUC@10 (inter-ocular): 61.78 FR@10 (inter-ocular): 1.60 NME (inter-ocular): 3.89 |