3 个月前

基于自蒸馏的模态感知对比实例学习用于弱监督音视频暴力检测

基于自蒸馏的模态感知对比实例学习用于弱监督音视频暴力检测

摘要

弱监督音视频暴力检测旨在仅使用视频级别标签区分包含多模态暴力事件的片段。以往多数方法在早期或中期阶段进行音视频融合与交互,却忽视了在弱监督设置下模态间的异质性问题。本文深入分析了多实例学习(MIL)过程中存在的模态不同步性(modality asynchrony)与实例同质化(undifferentiated instances)现象,并进一步探究其对弱监督音视频学习带来的负面影响。为解决上述问题,本文提出一种具有模态感知能力的对比实例学习与自蒸馏(Modality-Aware Contrastive Instance Learning with Self-Distillation, MACIL-SD)策略。具体而言,我们采用轻量级双流网络生成音频与视觉模态的“包”(bags),并在无监督条件下将单模态背景、暴力及正常实例聚类为半包(semi-bags)。随后,将音频与视觉模态中的暴力半包表示作为正样本对,而将某一模态的暴力半包与另一模态的背景或正常实例组合构成对比负样本对。此外,引入自蒸馏模块,将单模态视觉知识迁移至音视频联合模型,有效抑制噪声并缩小单模态与多模态特征之间的语义鸿沟。实验结果表明,所提框架在大规模XD-Violence数据集上优于现有方法,且具有更低的计算复杂度。同时,实验还验证了本方法可作为即插即用模块,有效增强其他网络结构的性能。代码已开源,地址为:https://github.com/JustinYuu/MACIL_SD。

代码仓库

JustinYuu/MACIL_SD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
anomaly-detection-in-surveillance-videos-on-2MACIL_SD
AP: 83.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自蒸馏的模态感知对比实例学习用于弱监督音视频暴力检测 | 论文 | HyperAI超神经