
摘要
卷积神经网络(ConvNets)在各种视觉识别任务中已经取得了优异的识别性能。大规模标注训练集是其成功的关键因素之一。然而,在某些领域,如表观年龄估计、头部姿态估计、多标签分类和语义分割中,收集带有精确标签的足够训练图像非常困难。幸运的是,标签之间存在模糊信息,这使得这些任务与传统分类有所不同。基于这一观察,我们将每张图像的标签转换为离散的标签分布,并通过最小化预测标签分布与真实标签分布之间的Kullback-Leibler散度来学习该标签分布,使用深度卷积神经网络实现这一目标。所提出的DLDL(深度标签分布学习)方法在特征学习和分类器学习中有效利用了标签的模糊性,即使在训练集较小的情况下也能帮助防止网络过拟合。实验结果表明,所提出的方法在年龄估计和头部姿态估计任务上显著优于现有最先进方法。同时,它还提高了多标签分类和语义分割任务的识别性能。
代码仓库
paplhjak/facial-age-estimation-benchmark
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| age-estimation-on-chalearn-2015 | DLDL+VGG-Face | MAE: 3.51 e-error: 0.31 |
| age-estimation-on-morph-album2 | DLDL+VGG-Face | MAE: 2.42±0.01 |
| age-estimation-on-morph-album2 | DLDL+VGG-Face (KL, Max)3 | MAE: 2.42 |
| head-pose-estimation-on-aflw | DLDL (KL) | MAE: 9.78 |
| head-pose-estimation-on-bjut-3d | Ours DLDL (KL) | MAE: 0.09 |
| head-pose-estimation-on-pointing-04 | Ours DLDL (KL) | MAE: 4.64 |
| multi-label-classification-on-pascal-voc-2007 | Ours PF-DLDL | mAP: 93.4 |
| multi-label-classification-on-pascal-voc-2012 | Ours PF-DLDL | mAP: 92.4 |
| semantic-segmentation-on-pascal-voc-2011 | DLDL-8s+CRF | Mean IoU: 67.6 |
| semantic-segmentation-on-pascal-voc-2012-1 | DLDL-8s+CRF | Mean IoU: 67.1 |