Erroll WoodTadas BaltrušaitisCharlie HewittSebastian DziadzioMatthew JohnsonVirginia EstellersThomas J. CashmanJamie Shotton

摘要
我们证明了仅使用合成数据即可在真实场景中实现人脸相关的计算机视觉任务。长期以来,研究社区一直受益于通过图形技术生成训练数据,但真实数据与合成数据之间的域差距(domain gap)始终是难题,尤其是在人脸相关任务中尤为突出。尽管研究人员尝试通过数据混合、域自适应(domain adaptation)以及域对抗训练等方法来弥合这一差距,但我们表明,通过精心设计的合成方法,可以实现极小的域差距,从而使仅在合成数据上训练的模型能够有效泛化到真实世界中的“野生”(in-the-wild)数据集。我们详细阐述了如何将程序化生成的参数化3D人脸模型与一套全面的手工制作资产库相结合,从而渲染出前所未有的高真实感与高多样性的训练图像。基于此类合成数据,我们训练了用于人脸相关任务的机器学习系统,包括关键点定位与人脸分割等任务。实验结果表明,合成数据不仅在精度上可与真实数据相媲美,更能够开启一些传统上因人工标注不可行而无法实现的新方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-alignment-on-300w | FakeIt | NME_inter-ocular (%, Challenge): 4.86 NME_inter-ocular (%, Common): 3.09 |
| face-parsing-on-helen | UNet (synthetic) | Mean F1: 92 |
| face-parsing-on-helen | UNet (real) | Mean F1: 91.6 |
| face-parsing-on-lapa | UNet (synthetic) | Mean F1: 90.1 |
| face-parsing-on-lapa | UNet (real) | Mean F1: 90.9 |