3 个月前

基于三维骨骼点云的人机交互学习用于视频暴力识别

基于三维骨骼点云的人机交互学习用于视频暴力识别

摘要

本文提出了一种基于人体骨骼关键点之间上下文关系学习的新方法,用于识别暴力行为。与以往研究不同,本方法首先从视频中提取的人体骨骼序列构建三维骨骼点云,随后在这些三维骨骼点云上进行交互关系学习。为此,本文提出一种新颖的骨骼点交互学习(Skeleton Points Interaction Learning, SPIL)模块,用于建模骨骼点之间的相互作用。具体而言,SPIL通过构建局部区域点之间的特定权重分布策略,能够根据点的特征及其时空位置信息,有选择性地聚焦于最具相关性的部分。为捕捉多样化的关联信息,设计了多头机制,通过独立的多个头分别提取不同特征,并将其聚合以协同处理点之间的多种关系类型。实验结果表明,所提出的模型在视频暴力行为数据集上优于现有网络,取得了新的最先进性能。

基准测试

基准方法指标
activity-recognition-on-rwf-2000SPIL Convolution
Accuracy: 89.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于三维骨骼点云的人机交互学习用于视频暴力识别 | 论文 | HyperAI超神经