Erroll WoodTadas BaltrusaitisCharlie HewittMatthew JohnsonJingjing ShenNikola MilosavljevicDaniel WildeStephan GarbinChirag RamanJamie ShottonToby SharpIvan StojiljkovicTom CashmanJulien Valentin

摘要
地标在人脸分析中通常发挥着关键作用,但许多身份特征或表情细节仅靠稀疏的地标难以充分表达。因此,为了更准确地重建人脸,通常会将地标与其他信号(如深度图像)或技术(如可微分渲染)结合使用。那么,我们是否可以通过增加地标数量来简化这一过程?针对这一问题,我们提出了首个能够精确预测常规数量10倍以上地标的方法,覆盖整个头部区域,包括眼睛和牙齿等细节。该方法基于合成训练数据实现,确保了标注的绝对准确性。通过将可变形人脸模型(morphable model)拟合到这些密集地标上,我们在单目野外环境下实现了当前最先进的3D人脸重建效果。我们进一步证明,密集地标是一种理想的跨帧融合人脸形状信息的信号,能够在单目和多视角场景下均实现高精度、富有表现力的人脸动作捕捉。此外,该方法具有极高的效率:仅需单个CPU线程,即可实现每秒超过150帧的密集地标预测与3D人脸模型拟合。更多信息请访问我们的项目主页:https://microsoft.github.io/DenseLandmarks/。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-face-reconstruction-on-florence | DenseLandmarks (Single-view) | RMSE Cooperative: 1.64 RMSE Indoor: 1.62 RMSE Outdoor: 1.61 |
| 3d-face-reconstruction-on-florence | DenseLandmarks (Multi-view) | RMSE Cooperative: 1.43 RMSE Indoor: 1.42 RMSE Outdoor: 1.42 |
| 3d-face-reconstruction-on-now-benchmark-1 | DenseLandmarks (Single-view) | Mean Reconstruction Error (mm): 1.28 Median Reconstruction Error: 1.02 Stdev Reconstruction Error (mm): 1.08 |
| 3d-face-reconstruction-on-now-benchmark-1 | DenseLandmarks (Multi-view) | Mean Reconstruction Error (mm): 1.01 Median Reconstruction Error: 0.81 Stdev Reconstruction Error (mm): 0.84 |
| face-alignment-on-300w | DenseLandmarks (GNLL) | NME_inter-ocular (%, Challenge): 4.8 NME_inter-ocular (%, Common): 3.03 |