
摘要
尽管人脸识别(Face Recognition, FR)技术已取得显著进展,但在非受限环境下的人脸识别仍面临挑战,主要源于半受限训练数据集与非受限测试场景之间的域差异(domain gap)。为解决这一问题,我们提出一种可控人脸合成模型(Controllable Face Synthesis Model, CFSM),该模型能够在风格潜在空间(style latent space)中模拟目标数据集的分布。CFSM在风格潜在空间中学习一个具有正交基的线性子空间,从而对合成结果的多样性与合成程度实现精确控制。此外,预训练的合成模型可受到人脸识别模型的引导,生成更有利于人脸识别模型训练的图像。同时,通过学习得到的正交基可表征目标数据集的分布特性,进而用于衡量不同人脸数据集之间的分布相似性。实验结果表明,所提方法在多个非受限基准测试集(如 IJB-B、IJB-C、TinyFace 和 IJB-S)上均取得显著性能提升,其中 IJB-S 上的 Rank-1 准确率提升达 +5.76%。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| face-recognition-on-ijb-b | ArcFace+CSFM | Rank-1: 0.9496 Rank-5: 0.9684 TAR @ FAR=1e-3: 0.9621 TAR @ FAR=1e-4: 0.9461 TAR @ FAR=1e-5: 0.9095 |
| face-verification-on-ijb-c | ArcFace+CSFM | Rank-1: 96.31 Rank-5: 97.48 TAR @ FAR=1e-4: 95.9% TAR @ FAR=1e-5: 94.06% TAR @ FAR=1e-6: 89.34% |
| face-verification-on-ijb-s | AdaFace+CSFM | Rank-1 (Video2Booking): 72.65 Rank-1 (Video2Single): 72.54 Rank-1 (Video2Video): 39.14 |
| face-verification-on-ijb-s | ArcFace+CSFM | Rank-1 (Video2Booking): 65.95 Rank-1 (Video2Single): 63.86 Rank-1 (Video2Video): 21.38 |