3 个月前

VPN++:重新思考用于理解日常生活活动的视频-姿态嵌入

VPN++:重新思考用于理解日常生活活动的视频-姿态嵌入

摘要

针对日常生活活动(Activities of Daily Living, ADL)识别,已有大量研究尝试融合RGB图像与3D姿态信息。由于ADL动作外观往往极为相似,需建模精细的细节才能有效区分。然而,当前主流的3D卷积神经网络(3D ConvNets)在捕捉动作过程中细微的视觉模式方面存在局限性,难以灵活适应动态变化。因此,当前主流方法仍以融合RGB与3D姿态信息为主。然而,在缺乏专用传感器的情况下,从RGB流中计算3D姿态的计算开销较大,限制了此类方法在实际应用中对低延迟要求场景的适用性。那么,如何最有效地利用3D姿态信息来提升ADL识别性能?为此,本文提出一种基于姿态驱动注意力机制的扩展方法——视频姿态网络(Video-Pose Network, VPN),并探索了两个不同的技术方向:其一,通过特征级知识蒸馏,将姿态知识迁移至RGB特征空间;其二,通过注意力级知识蒸馏,模拟姿态驱动的注意力机制。最终,我们将这两种策略融合为统一模型,命名为VPN++。实验结果表明,VPN++不仅在识别性能上表现优异,还具备显著的加速能力,并对噪声姿态具有较强的鲁棒性。无论是否依赖3D姿态输入,VPN++在4个公开数据集上的表现均优于现有代表性基线方法。相关代码已开源,地址为:https://github.com/srijandas07/vpnplusplus。

代码仓库

基准测试

基准方法指标
action-recognition-in-videos-on-ntu-rgbd-120VPN++ (RGB + Pose)
Accuracy (Cross-Setup): 90.7
Accuracy (Cross-Subject): 92.5
skeleton-based-action-recognition-on-n-uclaVPN++ (RGB + Pose)
Accuracy: 93.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VPN++:重新思考用于理解日常生活活动的视频-姿态嵌入 | 论文 | HyperAI超神经