4 个月前

基于图注意力网络的形状保持面部标志点检测

基于图注意力网络的形状保持面部标志点检测

摘要

表现最佳的地标估计算法基于利用大型卷积神经网络(CNN)出色地表示局部外观的能力。然而,众所周知,这些算法只能学习到较弱的空间关系。为了解决这一问题,我们提出了一种结合CNN和图注意力网络(Graph Attention Network, GAN)回归器级联的模型。为此,我们引入了一种编码方法,该方法联合表示面部地标的外观和位置,并通过一种注意力机制根据其可靠性对信息进行加权。此外,我们采用多任务方法初始化图节点的位置,并提出了从粗到精的地标描述方案。实验结果证实,所提出的模型能够学习到人脸结构的全局表示,在头部姿态和地标估计的热门基准测试中取得了最佳性能。我们的模型在涉及地标局部外观大幅变化的情况下表现出最显著的改进。

代码仓库

andresprados/spiga
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
face-alignment-on-300wSPIGA
NME_inter-ocular (%, Challenge): 4.66
NME_inter-ocular (%, Common): 2.59
NME_inter-ocular (%, Full): 2.99
NME_inter-pupil (%, Challenge): 6.73
NME_inter-pupil (%, Common): 3.59
NME_inter-pupil (%, Full): 4.20
face-alignment-on-300w-commonSPIGA
NME: 2.59
face-alignment-on-300w-split-2SPIGA
AUC@7 (box): 71.0
AUC@8 (inter-ocular): 57.27
FR@8 (inter-ocular): 0.67
NME (box): 2.03
NME (inter-ocular): 3.43
face-alignment-on-cofw-68SPIGA
AUC@7 (box): 64.1
NME (box): 2.52
NME (inter-ocular): 3.93
face-alignment-on-merl-ravSPIGA
AUC@7 (box) : 78.47
NME (box): 1.51
face-alignment-on-wflwSPIGA
AUC@10 (inter-ocular): 60.56
FR@10 (inter-ocular): 2.08
NME (inter-ocular): 4.06
face-alignment-on-wfw-extra-dataSPIGA
AUC@10 (inter-ocular): 60.56
FR@10 (inter-ocular): 2.08
NME (inter-ocular): 4.06
facial-landmark-detection-on-300wSPIGA (Inter-ocular Norm)
NME: 2.99
head-pose-estimation-on-wflwSPIGA
MAE mean (º): 1.52
MAE pitch (º): 1.86
MAE roll (º): 0.93
MAE yaw (º): 1.78
pose-estimation-on-300w-fullSPIGA
MAE mean (º): 1.29
MAE pitch (º): 1.70
MAE roll (º): 0.77
MAE yaw (º): 1.41
pose-estimation-on-merl-ravSPIGA
MAE mean (º): 2.39
MAE pitch (º): 2.24
MAE roll (º): 1.71
MAE yaw (º): 3.23

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图注意力网络的形状保持面部标志点检测 | 论文 | HyperAI超神经