3 个月前

基于音频引导注意力机制的弱监督暴力行为检测

基于音频引导注意力机制的弱监督暴力行为检测

摘要

由于复杂多变的场景以及类内显著的差异性,视频中的暴力行为检测是一项极具挑战性的任务。以往大多数方法专注于外观或运动信息的分析,忽视了音频与视觉事件之间的协同发生关系。事实上,诸如殴打、虐待等肢体冲突通常伴随着尖叫,而群体性暴力事件(如暴乱、战争)则往往与枪声、爆炸声等音频特征密切相关。为此,本文提出一种新型的音频引导多模态暴力检测框架。首先,利用深度神经网络分别提取视频的外观特征与音频特征;随后,设计了一种跨模态感知局部唤醒(Cross-Modal Awareness Local-Arousal, CMA-LA)网络,实现跨模态交互,并在时间维度上对视觉特征进行音频引导的增强;增强后的特征被输入多层感知机(MLP)以捕捉高层语义信息,再通过时间卷积层生成高置信度的暴力行为评分。为验证所提方法的有效性,我们在大规模暴力视频数据集XD Violence上进行了实验。大量实验结果表明,该方法具有出色的鲁棒性,并在检测性能上达到了新的最先进水平,取得了当前最优的平均精度(AP)结果。

基准测试

基准方法指标
anomaly-detection-in-surveillance-videos-on-2CMA_LA
AP: 83.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于音频引导注意力机制的弱监督暴力行为检测 | 论文 | HyperAI超神经