7 个月前

摘要

图像和视频中的地标定位是一个经典问题，已通过多种方法得到解决。如今，随着深度网络在机器学习领域的广泛应用，人们重新燃起了对推动面部地标检测技术以应对更具挑战性数据的兴趣。大多数研究工作采用基于L1或L2范数的网络目标函数，这些方法存在若干缺点。首先，地标的位置是从生成的热图（即置信度图）中确定的，而预测的地标位置（即均值）受到惩罚时并未考虑其分布情况：高分散对应低置信度，反之亦然。为此，我们引入了一种LaplaceKL目标函数，该函数可以对低置信度进行惩罚。另一个问题是依赖于标注数据，这些数据不仅获取成本高昂且容易出错。为了解决这两个问题，我们提出了一种对抗训练框架，该框架利用未标注数据来提高模型性能。我们的方法在所有300W基准测试中均达到最先进水平，并在Annotated Facial Landmarks in the Wild (AFLW) 数据集上排名第二。此外，我们的模型具有较强的鲁棒性和较小的规模：通道数量减少到1/8（即0.0398MB），在CPU上的实时性能仍可与现有最先进技术相媲美。因此，我们展示了该方法在实际应用中具有很高的实用价值。

源 PDF