
摘要
卷积神经网络(Convolutional Neural Networks, CNNs)已被证实是图像识别任务中一类强大的模型。受此成果的鼓舞,本文针对大规模视频分类任务,基于一个包含100万条YouTube视频、涵盖487个类别的新数据集,对CNN进行了全面的实证评估。我们研究了多种在时间维度上扩展CNN连接结构的方法,以充分利用局部时空信息,并提出了一种多分辨率、中心聚焦(foveated)的网络架构,作为加速训练的有前景方案。我们所构建的最佳时空网络相较于强大的基于特征的基准模型,性能显著提升(从55.3%提升至63.9%),但与单帧模型相比,性能提升却出人意料地有限(仅从59.3%提升至60.9%)。为进一步评估模型的泛化能力,我们对最佳模型在UCF-101动作识别数据集上重新训练其顶层网络,结果表明,其性能相较UCF-101基准模型有显著提升(由43.9%提升至63.3%)。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-sports-1m | DeepVideo’s Slow Fusion | Clip Hit@1: 41.9 Video hit@1 : 60.9 Video hit@5: 80.2 |
| action-recognition-in-videos-on-ucf101 | Slow Fusion + Finetune top 3 layers | 3-fold Accuracy: 65.4 |