4 个月前

三维手部姿态在动作识别中的应用价值

三维手部姿态在动作识别中的应用价值

摘要

三维手部姿态在动作识别领域是一个尚未充分探索的模态。姿态信息紧凑且富有信息量,可以极大地惠及计算资源有限的应用。然而,仅凭姿态无法完全理解动作,因为它们无法全面捕捉人类与之互动的对象和环境。为此,我们提出了一种名为HandFormer的新颖多模态变换器,用于高效建模手-物交互。HandFormer结合了高时间分辨率下的三维手部姿态以实现细粒度的动作建模,并通过稀疏采样的RGB帧来编码场景语义。鉴于手部姿态的独特特性,我们在时间上对姿态建模进行了分解,并通过其短期轨迹表示每个关节。这种分解的姿态表示与稀疏的RGB样本相结合,不仅效率显著提高,而且准确性也非常高。仅使用手部姿态的单模态HandFormer在浮点运算次数(FLOPs)减少5倍的情况下仍优于现有的基于骨架的方法。结合RGB数据后,我们在Assembly101和H2O数据集上取得了新的最佳性能,在以自我为中心的动作识别方面有了显著改进。

代码仓库

s-shamil/HandFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-action-recognition-on-assembly101HandFormer-B/21
Actions Top-1: 41.06
Object Top-1: 51.17
Verbs Top-1: 69.23
action-recognition-on-h2o-2-hands-and-objectsHandFormer-B/21x8
Actions Top-1: 93.39
Hand Pose: 3D
Object Label: No
Object Pose: No
RGB: Yes

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
三维手部姿态在动作识别中的应用价值 | 论文 | HyperAI超神经