
摘要
基于热力图的方法在人体姿态估计领域占据主导地位,其通过似然热力图建模输出分布。相比之下,回归方法虽然效率更高,但性能通常较差。本文提出采用最大似然估计(Maximum Likelihood Estimation, MLE)框架,旨在构建一种高效且有效的回归型人体姿态估计方法。从MLE的视角来看,采用不同的回归损失函数实际上对应着对输出密度函数的不同假设;若所假设的密度函数越接近真实分布,则回归性能越好。基于这一思想,本文提出一种新颖的回归范式——残差对数似然估计(Residual Log-likelihood Estimation, RLE),用于捕捉输出分布的内在结构。具体而言,RLE并非直接学习无参考的原始分布,而是学习分布的变化量,从而显著简化训练过程。结合所提出的重参数化设计,该方法可与现成的流模型(flow models)无缝兼容。所提方法在有效性、效率和灵活性方面均表现出色。通过一系列全面的实验,验证了其在多种人体姿态估计任务中的潜力。与传统回归范式相比,所提方法在MSCOCO数据集上实现了12.4 mAP的显著提升,且无需任何推理阶段的额外开销。更重要的是,这是首次在多人姿态估计任务中,回归方法超越了传统的热力图方法。相关代码已开源,地址为:https://github.com/Jeff-sjtu/res-loglikelihood-regression
代码仓库
open-mmlab/mmpose
pytorch
GitHub 中提及
Jeff-sjtu/res-loglikelihood-regression
官方
pytorch
GitHub 中提及
ligaoqi2/res-loglikelihood-regression-with-COCO-video-demo
pytorch
GitHub 中提及
sithu31296/pose-estimation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | RLE (Two-stage, based on SRNet) | Average MPJPE (mm): 36.3 |
| pose-estimation-on-coco-val2017 | RLE (256x192) | AP: 71.3 AP50: 88.9 AP75: 78.3 AR: - |