
摘要
我们提出了一种无需面部检测或特征点定位的实时六自由度(6DoF)3D人脸姿态估计方法。我们观察到,估计人脸的6DoF刚性变换比常用的3D人脸对齐所需的面部特征点检测问题更为简单。此外,6DoF提供了比人脸边界框标签更多的信息。基于这些观察,我们做出了多项贡献:(a) 我们描述了一种易于训练且高效的基于Faster R-CNN的模型,该模型可以为照片中的所有人脸回归6DoF姿态,而无需预先进行面部检测。(b) 我们解释了如何在输入照片和训练及评估过程中创建的任意裁剪之间转换并保持姿态的一致性。(c) 最后,我们展示了如何用人脸姿态来替代检测边界框的训练标签。在AFLW2000-3D和BIWI数据集上的测试表明,我们的方法能够实现实时运行,并且优于当前最先进的(SotA)人脸姿态估计器。值得注意的是,尽管我们的方法并未针对边界框标签进行优化,但在WIDER FACE检测基准上仍超过了复杂度相当的SotA模型。
代码仓库
vitoralbiero/img2pose
官方
pytorch
GitHub 中提及
nilseuropa/ros_img2pose
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-detection-on-wider-face-easy | img2pose | AP: 0.9 |
| face-detection-on-wider-face-hard | img2pose | AP: 0.839 |
| face-detection-on-wider-face-medium | img2pose | AP: 0.890 |
| head-pose-estimation-on-aflw2000 | RetinaFace R-50 (5 points) | MAE: 4.839 MAE_t: 0.114 |
| head-pose-estimation-on-aflw2000 | img2pose | Geodesic Error (GE): 6.41 MAE: 3.913 MAE_t: 0.099 |
| head-pose-estimation-on-biwi | img2pose | Geodesic Error (GE): 7.10 Geodesic Error - aligned (GE): 6.23 MAE (trained with other data): 3.786 MAE-aligned (trained with other data): 3.4 |
| head-pose-estimation-on-biwi | RetinaFace R-50 (5 points) | MAE (trained with other data): 4.578 |