
摘要
我们提出了一种从视角、姿态、外观、关节动作及遮挡变化较大的人体图像中推断人类属性(如性别、发型、衣着风格、表情、动作等)的方法。卷积神经网络(CNN)在大规模物体识别任务中已表现出优异性能。然而,在属性分类任务中,有效信号往往较为微弱,可能仅占据图像的一小部分区域,而图像整体则主要受姿态和视角变化的影响。若要消除姿态变化带来的干扰,通常需要在大规模标注数据集上进行训练,但这类数据集目前尚不可得。基于部件的模型(如Poselets和DPM)在该任务中表现良好,但受限于浅层低级特征的表达能力。为此,我们提出一种新方法,通过训练姿态归一化的CNN,将基于部件的模型与深度学习相结合。在无约束场景下的挑战性属性分类任务中,实验结果表明,该方法显著优于现有最先进方法。实验进一步验证,我们的方法不仅超越了当前最优的基于部件的方法,也优于在人体完整边界框上训练的传统CNN。
代码仓库
FanjieLUO/matlab
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| facial-attribute-classification-on-lfwa | PANDA | Error Rate: 18.97 |