4 个月前

跨模态融合与注意力机制在弱监督视频异常检测中的应用

跨模态融合与注意力机制在弱监督视频异常检测中的应用

摘要

近期,弱监督视频异常检测(WS-VAD)作为一种新兴的研究方向,旨在仅使用视频级别的标签来识别视频中的异常事件,如暴力和裸露行为。然而,这一任务面临着诸多挑战,包括解决模态信息不平衡问题以及持续区分正常和异常特征。在本文中,我们针对这些挑战提出了一种多模态WS-VAD框架,以准确检测诸如暴力和裸露等异常事件。在所提出的框架内,我们引入了一种新的融合机制——跨模态融合适配器(Cross-modal Fusion Adapter, CFA),该机制能够动态选择并增强与视觉模态高度相关的音频-视觉特征。此外,我们还引入了双曲洛伦兹图注意力机制(Hyperbolic Lorentzian Graph Attention, HLGAtt),以有效捕捉正常和异常表示之间的层次关系,从而提高特征分离的准确性。通过广泛的实验验证,我们证明了所提出的模型在暴力和裸露检测的基准数据集上达到了最先进的性能。

基准测试

基准方法指标
anomaly-detection-in-surveillance-videos-on-2CFA-HLGAtt
AP: 86.34

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态融合与注意力机制在弱监督视频异常检测中的应用 | 论文 | HyperAI超神经