4 个月前

学习时空表示的伪三维残差网络

学习时空表示的伪三维残差网络

摘要

卷积神经网络(CNN)一直被视为图像识别问题中的一类强大模型。然而,当利用CNN学习视频的空间-时间表示时,情况并非那么简单。一些研究表明,执行3D卷积是一种有效的方法,可以同时捕捉视频中的空间和时间维度。但是,从头开始开发一个非常深的3D CNN会导致高昂的计算成本和内存需求。一个合理的问题是:为什么不直接使用现成的2D网络来构建3D CNN呢?在本文中,我们在残差学习框架下设计了多种瓶颈构建块的变体,通过在空间域上使用$1\times3\times3$卷积滤波器(相当于2D CNN)加上$3\times1\times1$卷积来构建相邻特征图之间的时间连接,从而模拟$3\times3\times3$卷积。此外,我们提出了一种新的架构,称为伪三维残差网络(Pseudo-3D Residual Net, P3D ResNet),该架构利用了所有这些块的不同组合方式放置在ResNet中,遵循“随着深度增加而增强结构多样性可以提高神经网络能力”的理念。我们的P3D ResNet在Sports-1M视频分类数据集上相比3D CNN和基于帧的2D CNN分别提高了5.3%和1.8%的性能。我们进一步测试了预训练P3D ResNet生成的视频表示在五个不同基准上的泛化性能,并针对三种不同的任务进行了评估,结果表明其性能优于几种最先进的技术。

基准测试

基准方法指标
action-recognition-in-videos-on-activitynetP3D
mAP: 78.9
action-recognition-in-videos-on-sports-1mP3D
Clip Hit@1: 47.9
Video hit@1 : 66.4
Video hit@5: 87.4
action-recognition-in-videos-on-ucf101P3D (ImageNet + Sports1M)
3-fold Accuracy: 88.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习时空表示的伪三维残差网络 | 论文 | HyperAI超神经