
摘要
面部关键点检测是计算机视觉中的一个基本问题,对许多下游应用至关重要。本文介绍了一种基于视觉变换器的新面部关键点检测器,该检测器包含两项独特设计:双视觉变换器(D-ViT)和长跳跃连接(LSC)。根据特征图的通道维度本质上代表热图空间线性基的观察结果,我们提出通过通道分割ViT学习这些线性基之间的相互联系,以建模关键点之间的内在几何关系。我们将这种通道分割ViT集成到标准视觉变换器(即空间分割ViT)中,形成我们的双视觉变换器,作为预测模块的基础。此外,我们建议使用长跳跃连接将低级图像特征传递给所有预测模块,从而防止中间监督过程中有用信息的丢失。我们进行了大量实验,评估了该方法在广泛使用的基准数据集上的性能,包括WFLW、COFW和300W,实验结果表明我们的模型在这三个基准数据集上均优于之前的最先进方法(SOTA)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| facial-landmark-detection-on-300w | D-ViT | NME: 2.85 |
| facial-landmark-detection-on-cofw | D-ViT | NME (inter-pupil): 4.13 |
| facial-landmark-detection-on-wflw-1 | D-ViT | AUC@10 (inter-ocular): 63.7 FR@10 (inter-ocular): 1.76 NME: 3.75 NME (inter-ocular): 3.75 |