
摘要
我们提出了一种端到端的头部姿态估计网络,能够仅通过单张RGB图像,对全范围的头部偏航角(yaw)进行欧拉角预测。现有方法在正面视角下表现良好,但极少针对所有视角的头部姿态进行建模。该方法在自动驾驶与零售等领域具有广泛应用前景。我们的网络基于多损失策略,对损失函数及训练策略进行了改进,以适应大范围头部姿态估计的需求。此外,我们首次从当前的全景分割数据集中提取了前视图的真实标签(ground truth labelings)。由此构建的宽范围头部姿态估计网络(Wide Headpose Estimation Network, WHENet)是首个适用于全范围头部偏航角(即“宽范围”)的细粒度现代方法,同时在正面头部姿态估计任务上达到或超越现有最先进水平。该网络结构紧凑、计算高效,适用于移动设备及实际应用场景。
代码仓库
sizhean/panohead
pytorch
GitHub 中提及
Ascend-Research/HeadPoseEstimation-WHENet
官方
GitHub 中提及
revygabor/WHENet
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| head-pose-estimation-on-aflw2000 | WHENet-V | MAE: 4.83 |
| head-pose-estimation-on-aflw2000 | WHENet | MAE: 5.42 |
| head-pose-estimation-on-biwi | WHENet | MAE (trained with other data): 3.81 |
| head-pose-estimation-on-biwi | WHENet-V | MAE (trained with other data): 3.48 |
| head-pose-estimation-on-panoptic | WHENET | Geodesic Error (GE): 24.38 |