6 个月前

多模态表征

计算机视觉

Xiaoyu Wu Yujiang Pu

摘要

由于复杂多变的场景以及类内显著的差异性，视频中的暴力行为检测是一项极具挑战性的任务。以往大多数方法专注于外观或运动信息的分析，忽视了音频与视觉事件之间的协同发生关系。事实上，诸如殴打、虐待等肢体冲突通常伴随着尖叫，而群体性暴力事件（如暴乱、战争）则往往与枪声、爆炸声等音频特征密切相关。为此，本文提出一种新型的音频引导多模态暴力检测框架。首先，利用深度神经网络分别提取视频的外观特征与音频特征；随后，设计了一种跨模态感知局部唤醒（Cross-Modal Awareness Local-Arousal, CMA-LA）网络，实现跨模态交互，并在时间维度上对视觉特征进行音频引导的增强；增强后的特征被输入多层感知机（MLP）以捕捉高层语义信息，再通过时间卷积层生成高置信度的暴力行为评分。为验证所提方法的有效性，我们在大规模暴力视频数据集XD Violence上进行了实验。大量实验结果表明，该方法具有出色的鲁棒性，并在检测性能上达到了新的最先进水平，取得了当前最优的平均精度（AP）结果。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Xiaoyu Wu Yujiang Pu

摘要

由于复杂多变的场景以及类内显著的差异性，视频中的暴力行为检测是一项极具挑战性的任务。以往大多数方法专注于外观或运动信息的分析，忽视了音频与视觉事件之间的协同发生关系。事实上，诸如殴打、虐待等肢体冲突通常伴随着尖叫，而群体性暴力事件（如暴乱、战争）则往往与枪声、爆炸声等音频特征密切相关。为此，本文提出一种新型的音频引导多模态暴力检测框架。首先，利用深度神经网络分别提取视频的外观特征与音频特征；随后，设计了一种跨模态感知局部唤醒（Cross-Modal Awareness Local-Arousal, CMA-LA）网络，实现跨模态交互，并在时间维度上对视觉特征进行音频引导的增强；增强后的特征被输入多层感知机（MLP）以捕捉高层语义信息，再通过时间卷积层生成高置信度的暴力行为评分。为验证所提方法的有效性，我们在大规模暴力视频数据集XD Violence上进行了实验。大量实验结果表明，该方法具有出色的鲁棒性，并在检测性能上达到了新的最先进水平，取得了当前最优的平均精度（AP）结果。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于音频引导注意力机制的弱监督暴力行为检测 | 论文 | HyperAI超神经