3 个月前

VPN:面向日常活动的视频姿态嵌入学习

VPN:面向日常活动的视频姿态嵌入学习

摘要

本文聚焦于识别日常生活活动(Activities of Daily Living, ADL)的时空特性。ADL具有两个显著特征:(i)细微的时空模式,以及(ii)随时间变化而呈现相似的视觉模式。因此,ADL之间往往外观极为相似,通常需要深入分析其细粒度的差异才能加以区分。由于现有的时空3D卷积神经网络(3D ConvNets)在捕捉动作过程中细微的视觉模式方面过于僵化,本文提出一种新型视频-姿态网络(Video-Pose Network, VPN)。该VPN包含两个核心组件:空间嵌入模块与注意力网络。空间嵌入模块将3D姿态信息与RGB视觉线索映射到一个共享的语义空间中,使动作识别框架能够更好地融合多模态信息,从而学习更具判别性的时空特征。为有效区分相似动作,注意力网络具备两项关键功能:(i)一种端到端可学习的姿态主干网络,能够利用人体结构的拓扑关系;(ii)一个耦合模块,用于在视频序列中生成联合的时空注意力权重,以增强对关键时空区域的关注。实验结果表明,所提出的VPN在大规模人类活动数据集NTU-RGB+D 120及其子集NTU-RGB+D 60上,均优于当前最先进的动作分类方法;同时在更具现实挑战性的丰田智能家居数据集(Toyota Smarthome)以及小规模人-物体交互数据集Northwestern UCLA上也取得了显著性能提升,验证了该方法在多种场景下的有效性与泛化能力。

代码仓库

基准测试

基准方法指标
action-classification-on-toyota-smarthomeVPN (RGB + Pose)
CS: 60.8
CV1: 43.8
CV2: 53.5
action-recognition-in-videos-on-ntu-rgbdVPN (RGB + Pose)
Accuracy (CS): 95.5
Accuracy (CV): 98.0
action-recognition-in-videos-on-ntu-rgbd-120VPN (RGB + Pose)
Accuracy (Cross-Setup): 86.3
Accuracy (Cross-Subject): 87.8
skeleton-based-action-recognition-on-n-uclaVPN (RGB + Pose)
Accuracy: 93.5
skeleton-based-action-recognition-on-ntu-rgbd-1VPN
Accuracy (Cross-Setup): 87.8
Accuracy (Cross-Subject): 86.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VPN:面向日常活动的视频姿态嵌入学习 | 论文 | HyperAI超神经