4 个月前

先对齐,后融合:一种新型弱监督多模态暴力检测方法

先对齐,后融合:一种新型弱监督多模态暴力检测方法

摘要

弱监督暴力检测是指仅使用视频级别的标签来训练模型以识别视频中的暴力片段的技术。在这些方法中,多模态暴力检测通过整合音频和光流等模态,展现出巨大的潜力。现有方法主要集中在设计多模态融合模型以解决模态差异问题。相比之下,我们采取了不同的方法;利用暴力事件表示中各模态固有的差异,提出了一种新的多模态语义特征对齐方法。该方法将局部、瞬时且信息量较少的模态(如音频和光流)的语义特征稀疏地映射到信息量较大的RGB语义特征空间中。通过迭代过程,该方法确定合适的非零特征匹配子空间,并基于此子空间对特定模态的事件表示进行对齐,从而在后续的多模态融合阶段充分利用所有模态的信息。在此基础上,我们设计了一个新的弱监督暴力检测框架,包括单模态多实例学习用于提取单模态语义特征、多模态对齐、多模态融合和最终检测。基准数据集上的实验结果证明了我们方法的有效性,在XD-Violence数据集上达到了86.07%的平均精度(Average Precision, AP)。我们的代码可在https://github.com/xjpp2016/MAVD 获取。

代码仓库

xjpp2016/mavd
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
anomaly-detection-in-surveillance-videos-on-2MAVD
AP: 86.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
先对齐,后融合:一种新型弱监督多模态暴力检测方法 | 论文 | HyperAI超神经