3 个月前

基于卷积神经网络的大规模视频分类

基于卷积神经网络的大规模视频分类

摘要

卷积神经网络(Convolutional Neural Networks, CNNs)已被证实是图像识别任务中一类强大的模型。受此成果的鼓舞,本文针对大规模视频分类任务,基于一个包含100万条YouTube视频、涵盖487个类别的新数据集,对CNN进行了全面的实证评估。我们研究了多种在时间维度上扩展CNN连接结构的方法,以充分利用局部时空信息,并提出了一种多分辨率、中心聚焦(foveated)的网络架构,作为加速训练的有前景方案。我们所构建的最佳时空网络相较于强大的基于特征的基准模型,性能显著提升(从55.3%提升至63.9%),但与单帧模型相比,性能提升却出人意料地有限(仅从59.3%提升至60.9%)。为进一步评估模型的泛化能力,我们对最佳模型在UCF-101动作识别数据集上重新训练其顶层网络,结果表明,其性能相较UCF-101基准模型有显著提升(由43.9%提升至63.3%)。

基准测试

基准方法指标
action-recognition-in-videos-on-sports-1mDeepVideo’s Slow Fusion
Clip Hit@1: 41.9
Video hit@1 : 60.9
Video hit@5: 80.2
action-recognition-in-videos-on-ucf101Slow Fusion + Finetune top 3 layers
3-fold Accuracy: 65.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于卷积神经网络的大规模视频分类 | 论文 | HyperAI超神经