7 个月前

摘要

卷积神经网络（CNN）一直被视为图像识别问题中的一类强大模型。然而，当利用CNN学习视频的空间-时间表示时，情况并非那么简单。一些研究表明，执行3D卷积是一种有效的方法，可以同时捕捉视频中的空间和时间维度。但是，从头开始开发一个非常深的3D CNN会导致高昂的计算成本和内存需求。一个合理的问题是：为什么不直接使用现成的2D网络来构建3D CNN呢？在本文中，我们在残差学习框架下设计了多种瓶颈构建块的变体，通过在空间域上使用 $1\times3\times3$ 卷积滤波器（相当于2D CNN）加上 $3\times1\times1$ 卷积来构建相邻特征图之间的时间连接，从而模拟 $3\times3\times3$ 卷积。此外，我们提出了一种新的架构，称为伪三维残差网络（Pseudo-3D Residual Net, P3D ResNet），该架构利用了所有这些块的不同组合方式放置在ResNet中，遵循“随着深度增加而增强结构多样性可以提高神经网络能力”的理念。我们的P3D ResNet在Sports-1M视频分类数据集上相比3D CNN和基于帧的2D CNN分别提高了5.3%和1.8%的性能。我们进一步测试了预训练P3D ResNet生成的视频表示在五个不同基准上的泛化性能，并针对三种不同的任务进行了评估，结果表明其性能优于几种最先进的技术。