4 个月前

用于视频动作识别的双流卷积网络

用于视频动作识别的双流卷积网络

摘要

我们研究了用于视频动作识别的判别训练深度卷积网络(ConvNets)的架构。面临的挑战在于从静态帧中捕捉外观信息以及帧间运动信息的互补性。我们的目标是在数据驱动的学习框架内推广表现最佳的手工设计特征。我们的贡献有三个方面。首先,我们提出了一种双流卷积网络架构,该架构结合了空间网络和时间网络。其次,我们证明了在多帧密集光流上训练的卷积网络即使在有限的训练数据下也能取得非常好的性能。最后,我们展示了多任务学习可以应用于两个不同的动作分类数据集,以增加训练数据量并提高两个数据集上的性能。我们的架构在UCF-101和HMDB-51这两个标准的视频动作基准数据集上进行了训练和评估,在这些数据集上的表现与当前最先进的方法相当。此外,它在视频分类方面也远远超过了之前使用深度网络的所有尝试。

代码仓库

HsinYingLee/OPN
caffe2
GitHub 中提及
mcgridles/LENS
pytorch
GitHub 中提及
Michaelgod/test
GitHub 中提及

基准测试

基准方法指标
action-classification-on-charades2-Strm
MAP: 18.6
action-recognition-in-videos-on-hmdb-51Two-Stream (ImageNet pretrained)
Average accuracy of 3 splits: 59.4
action-recognition-in-videos-on-ucf101Two-Stream (ImageNet pretrained)
3-fold Accuracy: 88.0
hand-gesture-recognition-on-viva-hand-1Two Stream CNNs
Accuracy: 68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频动作识别的双流卷积网络 | 论文 | HyperAI超神经