4 个月前

检测与跟踪:视频中的高效姿态估计

检测与跟踪:视频中的高效姿态估计

摘要

本文针对复杂多人体视频中的人体关键点估计与跟踪问题进行了研究。我们提出了一种极其轻量但高效的方法,该方法基于最新的人体检测和视频理解技术。我们的方法分为两个阶段:首先在单帧或短片段中进行关键点估计,然后通过轻量级跟踪生成整个视频中的关键点预测。在帧级姿态估计方面,我们实验了Mask R-CNN模型,并提出了该模型的3D扩展版本(3D extension),利用小片段中的时间信息生成更稳健的帧预测。我们在新发布的多人视频姿态估计基准数据集PoseTrack上进行了广泛的消融实验,以验证模型的各种设计选择。我们的方法在验证集上使用多目标跟踪精度(MOTA)指标达到了55.2%的准确率,在测试集上达到了51.8%的准确率,并在ICCV 2017 PoseTrack关键点跟踪挑战赛中取得了最佳性能。

代码仓库

facebookresearch/DetectAndTrack
caffe2
GitHub 中提及

基准测试

基准方法指标
keypoint-detection-on-coco-test-challengeGirdhar et al.
AR: 70.2
ARM: 60.7
pose-tracking-on-posetrack2017ProTracker
MOTA: 51.82
mAP: 59.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
检测与跟踪:视频中的高效姿态估计 | 论文 | HyperAI超神经