Antonio BarbalauRadu Tudor IonescuMariana-Iuliana GeorgescuJacob DueholmBharathkumar RamachandraKamal NasrollahiFahad Shahbaz KhanThomas B. MoeslundMubarak Shah

摘要
近期文献中提出了一种用于视频异常检测的自监督多任务学习(Self-Supervised Multi-Task Learning, SSMTL)框架。由于该方法取得了高度准确的检测结果,吸引了众多研究人员的关注。在本研究中,我们重新审视了该自监督多任务学习框架,并对原始方法提出多项改进。首先,我们系统研究了多种异常检测策略,例如基于光流检测高运动区域或采用背景减除法。我们认为,当前所采用的预训练YOLOv3模型存在局限性,尤其在检测运动中的物体或未知类别物体方面表现不佳,因此其适用性有待提升。其次,为增强模型的表征能力,我们对3D卷积主干网络进行了现代化改造,引入受视觉Transformer(Vision Transformer)近期成功启发的多头自注意力模块。在此基础上,我们创新性地提出了2D与3D卷积视觉Transformer(Convolutional Vision Transformer, CvT)块的混合结构,以兼顾局部空间特征与时空建模能力。第三,为进一步提升模型性能,我们探索了多种额外的自监督学习任务,包括:通过知识蒸馏预测分割图、求解拼图(jigsaw puzzle)任务、通过知识蒸馏估计人体姿态、预测被掩码区域(图像修复,inpainting),以及利用伪异常样本进行对抗学习。我们通过大量实验评估了上述改进对模型性能的影响。在识别出更具潜力的框架配置后,我们将其命名为SSMTL++v1与SSMTL++v2,并将初步实验扩展至更多数据集。实验结果表明,我们的方法在所有数据集上均保持稳定的性能提升。在Avenue、ShanghaiTech和UBnormal等主流数据集上,我们的方法显著超越现有最优结果,将视频异常检测的性能基准提升至全新水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-on-chuk-avenue | SSMTL++v1 | AUC: 93.7% FPS: 20 RBDC: 40.9 TBDC: 82.1 |
| anomaly-detection-on-shanghaitech | SSMTL++v2 | AUC: 83.8% RBDC: 47.10 TBDC: 85.60 |
| anomaly-detection-on-shanghaitech | SSMTL++v1 | AUC: 82.9% RBDC: 43.2 TBDC: 84.1 |
| anomaly-detection-on-ubnormal | SSMTL++v1 | AUC: 62.1% RBDC: 25.63 TBDC: 63.53 |