3 个月前

高效数据的视频Transformer用于暴力检测

高效数据的视频Transformer用于暴力检测

摘要

在智慧城市建设中,暴力事件检测对于保障城市安全至关重要。此前多项研究聚焦于利用二维卷积神经网络(2D-CNN)从视频每一帧中提取空间特征,并结合循环神经网络(RNN)及其变体作为时序特征学习方法,以实现对事件的识别。另一方面,Transformer网络在多个领域已展现出卓越性能。然而,其主要瓶颈在于需要大规模数据集才能取得良好效果。针对这一问题,本文提出一种数据高效型视频Transformer模型(Data-efficient Video Transformer, DeVTr),基于Transformer架构构建时空特征学习机制,并引入预训练的二维卷积神经网络(2D-CNN)作为输入数据的嵌入层,以提升特征表示能力。该模型在真实场景暴力行为数据集(Real-life Violence Dataset, RLVS)上进行了训练与测试,取得了96.25%的准确率。与现有方法的对比结果表明,所提出的方法在暴力事件检测任务中优于其他已有研究,性能表现最佳。

基准测试

基准方法指标
action-recognition-on-real-life-violenceDeVTr
accuracy: 96.25%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高效数据的视频Transformer用于暴力检测 | 论文 | HyperAI超神经