
摘要
视频异常检测(Video Anomaly Detection, VAD)旨在定位视频序列中出现的意外行为或活动。现有的主流VAD方法主要基于两类范式:一类是一类分类(one-class)方法,假设训练数据全部为正常样本;另一类是弱监督方法,仅需视频级别的正常/异常标签。为统一解决上述两种VAD设置,本文提出一种自监督稀疏表示(Self-supervised Sparse Representation, S3R)框架,该框架通过融合基于字典的表示与自监督学习之间的协同效应,在特征层面建模异常概念。在学习得到的字典基础上,S3R构建了两个相互耦合的模块——en-Normal与de-Normal,分别用于重构片段级特征并过滤正常事件特征。同时,自监督机制还能够生成伪正常/异常样本,用于训练异常检测器。通过大量实验验证,S3R在主流基准数据集上均取得了当前最优的性能,适用于一类分类与弱监督两类VAD任务。项目代码已公开,获取地址为:https://github.com/louisYen/S3R。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-in-surveillance-videos-on | S3R | ROC AUC: 85.99 |
| anomaly-detection-in-surveillance-videos-on-1 | S3R | AUC-ROC: 97.48 |
| anomaly-detection-in-surveillance-videos-on-2 | S3R (without audio imformation) | AP: 80.26 |
| weakly-supervised-video-anomaly-detection-on | S3R | AUC-ROC: 97.48 |