4 个月前

管卷积神经网络(T-CNN)用于视频中的动作检测

管卷积神经网络(T-CNN)用于视频中的动作检测

摘要

深度学习在图像分类和目标检测方面已经证明能够取得优异的结果。然而,由于视频数据的复杂性和注释的缺乏,深度学习对视频分析(如动作检测和识别)的影响一直有限。以往基于卷积神经网络(CNN)的视频动作检测方法通常包括两个主要步骤:帧级动作提案检测和跨帧提案关联。此外,这些方法采用双流CNN框架分别处理空间和时间特征。本文提出了一种用于视频中动作检测的端到端深度网络,称为Tube Convolutional Neural Network(T-CNN)。所提出的架构是一个统一的网络,能够基于3D卷积特征识别和定位动作。首先,将视频分成等长的片段,然后根据3D卷积网络(ConvNet)特征为每个片段生成一组管状提案。最后,通过网络流算法将不同片段的管状提案连接起来,并利用这些链接的视频提案进行时空动作检测。在多个视频数据集上的大量实验表明,与现有最先进方法相比,T-CNN在修剪和未修剪视频的动作分类和定位方面表现出色。

代码仓库

cyberpunk317/Action_detection
pytorch
GitHub 中提及

基准测试

基准方法指标
action-detection-on-j-hmdbT-CNN
Frame-mAP 0.5: 61.3
Video-mAP 0.2: 78.4
Video-mAP 0.5: 76.9
action-detection-on-ucf-sportsT-CNN
Frame-mAP 0.5: 86.7
action-detection-on-ucf101-24T-CNN
Frame-mAP 0.5: 41.37
Video-mAP 0.1: 51.3
Video-mAP 0.2: 47.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
管卷积神经网络(T-CNN)用于视频中的动作检测 | 论文 | HyperAI超神经