
摘要
弱监督视频异常检测(Weakly Supervised Video Anomaly Detection, WS-VAD)旨在基于判别性特征表示,区分异常事件与正常事件。然而,现有大多数方法受限于视频表征能力不足的问题。为此,本文提出一种多实例自训练框架(Multiple Instance Self-Training, MIST),仅利用视频级别标注即可高效优化任务特定的判别性表示。MIST框架主要包括两个核心组件:1)多实例伪标签生成器,通过引入稀疏连续采样策略,生成更加可靠的片段级伪标签;2)自引导注意力增强型特征编码器,能够在提取任务特定表示的同时,自动聚焦于帧中的异常区域。此外,本文采用自训练机制联合优化上述两个组件,最终获得一个性能优异的任务特定特征编码器。在两个公开数据集上的大量实验结果表明,所提方法具有显著有效性,其性能在多个指标上达到或超过现有监督与弱监督方法,尤其在ShanghaiTech数据集上实现了94.83%的帧级AUC,展现了卓越的异常检测能力。
代码仓库
fjchange/MIST_VAD
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-in-surveillance-videos-on | MIST | ROC AUC: 82.30 |
| anomaly-detection-in-surveillance-videos-on-1 | MIST | AUC-ROC: 94.83 |
| weakly-supervised-video-anomaly-detection-on | MIST | AUC-ROC: 94.83 FAR-Normal: 0.05 |
| weakly-supervised-video-anomaly-detection-on-1 | MIST | AUC-ROC: 65.32 |