6 个月前

摘要

人群计数的目标是通过利用行人头部中心位置的标注信息，估计图像中的人数。随着深度卷积神经网络的广泛应用，该领域已取得显著进展。现有方法普遍采用欧几里得距离（即 $L_2$ 损失）来优化模型，但该方法存在两个主要缺陷：（1）由于难以保留密度图中的高频变化，该损失函数在学习空间感知能力（即头部位置信息）方面表现不佳；（2）对人群计数中的各类噪声高度敏感，包括零均值噪声、头部尺寸变化以及遮挡等问题。尽管先前已有研究提出最大超区域损失（Maximum Excess over SubArrays, MESA）以缓解上述问题，其通过寻找预测密度图与真实密度图差异最大的矩形子区域来实现，但该损失函数无法通过梯度下降进行优化，因而难以融入深度学习框架。本文提出一种新型网络架构——空间感知网络（SPatial Awareness Network, SPANet），用于在人群计数任务中引入空间上下文信息。为此，我们设计了一种新的损失函数——像素级最大超区域损失（Maximum Excess over Pixels, MEP），通过识别与真实密度图存在显著差异的像素级子区域来实现空间感知建模。为实现这一目标，我们进一步提出一种弱监督学习方案，并基于多分支架构生成此类高差异区域。所提出的框架可无缝集成至现有深度人群计数方法中，且支持端到端训练。在四个具有挑战性的公开基准数据集上的大量实验表明，本文方法显著提升了基线模型的性能。尤为突出的是，该方法在所有基准数据集上均优于当前最先进的技术，展现出卓越的泛化能力与计数精度。