
摘要
异常事件罕见,因此异常检测通常被建模为一类分类(One-Class Classification, OCC),即仅基于正常样本进行训练。当前主流的OCC方法通过将正常运动的潜在表示限制在有限的体积内,将该体积之外的样本判定为异常,从而较好地应对了异常的“开放集”(open-set)特性。然而,正常行为本身同样具有开放集属性——人类执行同一动作时可能存在多种表现方式,而现有主流方法对此却未能充分考虑。为此,本文提出一种新颖的生成式视频异常检测(Video Anomaly Detection, VAD)模型,该模型假设正常与异常行为均具有多模态特性。我们采用骨骼序列作为表征,并利用当前最先进的扩散概率模型(diffusion probabilistic models)生成多模态的未来人体姿态。我们提出一种新颖的基于历史运动的条件建模方式,充分利用扩散过程在模式覆盖方面的优势,生成多种合理但不同的未来运动轨迹。通过对未来潜在模式进行统计聚合,当生成的运动集合与实际发生的未来运动不一致时,即判定为异常。我们在四个公认的基准数据集(UBnormal、HR-UBnormal、HR-STC 和 HR-Avenue)上对所提模型进行了全面验证,实验结果显著超越现有最先进方法,充分证明了该模型的有效性与优越性。
代码仓库
aleflabo/MoCoDAD
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-on-ubnormal | MoCoDAD | AUC: 68.3% |
| video-anomaly-detection-on-hr-avenue | MoCoDAD | AUC: 89.0 |
| video-anomaly-detection-on-hr-shanghaitech | MoCoDAD | AUC: 77.6 |
| video-anomaly-detection-on-hr-ubnormal | MoCoDAD | AUC: 68.4 |