4 个月前

基于马氏距离的多视图最优传输用于多视图人群定位

基于马氏距离的多视图最优传输用于多视图人群定位

摘要

多视角人群定位旨在预测场景中所有人的地面位置。传统方法通常首先估计地面平面的人群密度图,然后从中获取人群位置。然而,现有方法在拥挤区域的性能受到密度图模糊性的限制,局部峰值可能会被平滑掉。为了缓解密度图监督的这一弱点,在单图像人群定位任务中已经提出了基于最优传输的点监督方法,但尚未应用于多视角人群定位。因此,本文提出了一种新颖的基于马氏距离的多视角最优传输(M-MVOT)损失函数,专门针对多视角人群定位设计。首先,我们用马氏距离替换了基于欧几里得距离的传输成本。马氏距离在成本函数中定义了椭圆形等值线,其长轴和短轴方向由视图射线方向引导。其次,每个视图中的物体到相机的距离用于进一步调整每个位置的最优传输成本,其中远离相机的错误预测会被更严重地惩罚。最后,我们提出了一种策略,在模型损失(M-MVOT)中考虑所有输入相机视图,通过计算每个真实点与其最近相机之间的最优传输成本来实现这一点。实验结果表明,所提出的 方法在多个多视角人群定位数据集上优于基于密度图或普通欧几里得距离的最优传输损失函数。项目页面:https://vcc.tech/research/2024/MVOT。

基准测试

基准方法指标
multiview-detection-on-cvcsM-MVOT
MODA (0.5m): 43.5
MODA (1m): /
multiview-detection-on-multiviewxM-MVOT
MODA: 96.7
MODP: 86.1
Recall: 97.9
multiview-detection-on-wildtrackM-MVOT
MODA: 92.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于马氏距离的多视图最优传输用于多视图人群定位 | 论文 | HyperAI超神经