
摘要
视频中的异常事件检测是一项具有挑战性的问题,部分原因在于异常模式的多样性以及缺乏相应的标注数据。本文提出了一种新的约束性预训练任务,用于学习物体级别的正常模式。我们的方法旨在建立下采样后的视觉查询与原始分辨率下对应正常外观和运动特征之间的映射关系。与文献中广泛使用的重建任务和未来帧预测任务相比,所提出的任务更具挑战性,因为我们的模型需要联合预测空间与时间特征,而非简单地进行特征重构。我们认为,更严格的预训练任务能够促进对正常模式的更优学习。在多个基准数据集上的实验结果表明,该方法在定位与追踪异常方面具有显著效果,在时空评估指标上优于或达到了当前最先进的水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-on-shanghaitech | STPT | AUC: 77.1% RBDC: 51.6 TBDC: 84.6 |
| anomaly-detection-on-ucsd-ped2 | STPT | AUC: 98.9% |