摘要

从单张肖像图像重建三维虚拟角色在多媒体领域具有广泛的应用前景，但仍是极具挑战性的研究课题。仅从单一图像中提取表面反射特性（reflectance）与几何形状（geometry）属于病态问题：几何恢复本质上是一个“多对一”的映射问题，而反射特性与光照条件难以有效解耦。尽管在光照阵列（light stage）等受控环境下可精确获取高质量的几何与反射参数，但此类数据的采集成本高昂，难以构建大规模数据集。此外，若仅依赖此类受控数据进行训练，模型在真实场景（in-the-wild）图像上的泛化能力往往较差。为此，本文提出MoSAR——一种基于单目图像生成三维虚拟角色的新方法。我们设计了一种半监督训练范式，通过联合利用光照阵列数据与真实场景图像数据，显著提升了模型的泛化性能。该方法的核心在于提出了一种新颖的可微分着色（differentiable shading）建模方式，有效实现了对人脸内在属性的解耦。实验表明，MoSAR能够准确分离出人脸的内在属性参数，生成可重光照（relightable）的三维角色模型。相较现有最先进方法，MoSAR能够估计更丰富的皮肤反射特性映射，生成更具真实感的三维虚拟角色。此外，我们还构建了一个全新的公开数据集——FFHQ-UV-Intrinsics，这是首个在大规模（共10,000名受试者）上提供人脸内在属性的公开数据集，包含漫反射（diffuse）、高光（specular）、环境遮蔽（ambient occlusion）及半透明（translucency）等多类反射属性图。项目主页与数据集下载地址如下：https://ubisoft-laforge.github.io/character/mosar/

源 PDF