
摘要
在长视频序列中识别有意义的活动是一个具有挑战性的问题,这主要源于“有意义”这一概念的定义模糊,以及场景中存在大量杂乱信息。为解决该问题,我们提出通过学习一种生成模型来捕捉规律性运动模式(称为“规律性”),该模型利用多种数据源,且仅需极少的监督信号。具体而言,我们提出了两种基于自编码器的方法,因其在极少甚至无监督条件下仍能有效工作的特性而被选用。首先,我们采用传统的手工设计时空局部特征,并在这些特征上训练一个全连接自编码器。其次,我们构建了一个全卷积前馈自编码器,实现局部特征与分类器的端到端联合学习。我们的模型能够从多个数据集中捕捉到规律性特征。我们在定性和定量两个层面评估了所提方法:在定性方面,展示了模型在不同维度上学习到的视频规律性;在定量方面,将其应用于异常检测任务,在多个基准数据集上表现出具有竞争力的性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abnormal-event-detection-in-video-on-ubi | Hasan et al. | AUC: 0.528 Decidability: 0.194 EER: 0.466 |
| semi-supervised-anomaly-detection-on-ubi | Hasan et al. | AUC: 0.528 Decidability: 0.194 EER: 0.466 |
| video-anomaly-detection-on-hr-avenue | Conv-AE | AUC: 84.8 |
| video-anomaly-detection-on-hr-shanghaitech | Conv-AE | AUC: 69.8 |