
摘要
本文提出了一种基于多视角视频输入的实时多人动作捕捉新算法。由于各视角中存在严重的遮挡问题,必须对多视角图像及多帧时间序列进行联合优化,这带来了实时性效率的核心挑战。为此,本文首次将单视角解析、跨视角匹配与时间跟踪统一纳入一个统一的优化框架中,即构建了一个四维关联图(4D association graph),其中图像空间、视角维度与时间维度可被同等且同步地处理。为高效求解该四维关联图,本文进一步提出了基于启发式搜索的四维肢体束解析方法,并通过提出“束克鲁斯卡尔算法”(bundle Kruskal’s algorithm)实现肢体束的组装。所提方法可在5台相机、5人场景下实现30帧/秒的实时在线动作捕捉系统。得益于统一的解析、匹配与跟踪约束机制,该方法对检测噪声具有较强的鲁棒性,能够实现高质量的在线姿态重建。在不依赖高层外观信息的前提下,所提方法在定量指标上优于现有最先进方法。此外,本文还构建了一个与基于标记的动作捕捉系统同步的多视角视频数据集,以支持科学评估。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-multi-person-pose-estimation-on-shelf | 4D Association Pose | PCP3D: 97.6 |