4 个月前

超越短片段:用于视频分类的深度网络

超越短片段:用于视频分类的深度网络

摘要

卷积神经网络(CNNs)已广泛应用于图像识别问题,在识别、检测、分割和检索等方面取得了最先进的成果。在本研究中,我们提出并评估了多种深度神经网络架构,旨在比以往尝试的时间跨度更长地整合视频中的图像信息。我们提出了两种能够处理全长视频的方法。第一种方法探讨了各种卷积时间特征池化架构,分析了在将CNN适应于该任务时需要做出的各种设计选择。第二种方法则显式地将视频建模为帧的有序序列。为此,我们采用了使用长短期记忆(LSTM)单元的循环神经网络,这些单元连接到基础CNN的输出。我们的最佳网络在Sports 1百万数据集上表现出显著的性能提升(73.1% 对比 60.9%),以及在UCF-101数据集中有和无额外光流信息的情况下(88.6% 对比 88.0%,82.6% 对比 72.8%)。

代码仓库

shobrook/sequitur
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-in-videos-on-sports-1mConv pooling
Video hit@1 : 71.7
Video hit@5: 90.4
action-recognition-in-videos-on-ucf101Two-stream+LSTM
3-fold Accuracy: 88.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越短片段:用于视频分类的深度网络 | 论文 | HyperAI超神经