
摘要
在复杂多变的真实场景中预测人脸属性极具挑战性。为此,我们提出了一种新颖的深度学习框架,用于真实场景下的人脸属性预测。该框架级联两个卷积神经网络——LNet 和 ANet,二者在属性标签的联合微调下进行训练,但采用不同的预训练策略。LNet 通过大量通用物体类别进行预训练,以实现人脸定位;而 ANet 则通过大量人脸身份信息进行预训练,以支持属性预测。该框架不仅在性能上显著超越现有最先进方法,还揭示了关于人脸表征学习的若干重要发现:(1)阐明了不同预训练策略对人脸定位(LNet)与属性预测(ANet)性能提升的显著影响;(2)揭示了一个关键现象:尽管 LNet 仅使用图像级别的属性标签进行微调,其在整个图像上的特征响应图仍能强烈指示人脸位置。这一发现使得 LNet 可仅依赖图像级标注(无需人脸边界框或关键点标注)即可完成人脸定位训练,而无需像以往所有属性识别方法那样依赖精确的标注信息;(3)进一步表明,ANet 的高层隐藏神经元在经过大规模人脸身份信息的预训练后,能够自动发现语义概念;在后续结合属性标签进行微调后,这些语义概念得到显著丰富。每个属性均可通过这些概念的稀疏线性组合得到良好解释。
代码仓库
facebookresearch/disentangling-correlated-factors
pytorch
GitHub 中提及
dooleys/fr-nas
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| facial-attribute-classification-on-lfwa | LNets+ANet | Error Rate: 16.15 |