
摘要
当前最先进的拥挤场景中的人数统计方法依赖于深度网络来估计人群密度。这些方法通常在整个图像或大图像块上使用相同的滤波器,然后通过估计局部尺度来补偿透视畸变。这通常是通过训练一个辅助分类器来实现的,该分类器为预定义的图像块选择最佳内核大小,而这些内核大小是从有限的选择集中挑选出来的。因此,这些方法不是端到端可训练的,并且在利用上下文信息的范围上受到限制。在本文中,我们提出了一种端到端可训练的深度架构,该架构结合了使用多种感受野大小获得的特征,并学习每个位置上每种特征的重要性。换句话说,我们的方法自适应地编码了所需上下文信息的尺度,以准确预测人群密度。这一算法在性能上超过了现有的最先进的人群计数方法,尤其是在透视效应较强的情况下。
代码仓库
xr0927/chapter9-learnCVPR2019-Context-Aware_Crowd_Counting
pytorch
GitHub 中提及
CommissarMa/Context-Aware_Crowd_Counting-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| crowd-counting-on-shanghaitech-a | CAN | MAE: 62.3 |
| crowd-counting-on-shanghaitech-b | CAN | MAE: 7.8 |
| crowd-counting-on-ucf-cc-50 | CAN | MAE: 212.2 |
| crowd-counting-on-ucf-qnrf | CAN | MAE: 107 |
| crowd-counting-on-venice | ECAN | MAE: 20.5 |
| crowd-counting-on-venice | CAN | MAE: 23.5 |
| crowd-counting-on-worldexpo10 | CAN | Average MAE: 7.4 |
| crowd-counting-on-worldexpo10 | ECAN | Average MAE: 7.2 |