7 个月前

卷积神经网络

计算机视觉

Boyuan Jiang MengMeng Wang Weihao Gan Wei Wu Junjie Yan

摘要

空间-时间特征和运动特征是视频动作识别中的两种互补且至关重要的信息。近期的最先进方法采用了3D卷积神经网络（CNN）流来学习空间-时间特征，以及另一个光流流来学习运动特征。在本研究中，我们的目标是在统一的2D框架下高效地编码这两种特征。为此，我们首先提出了一种STM模块，该模块包含一个通道级空间-时间模块（Channel-wise SpatioTemporal Module, CSTM），用于表示空间-时间特征，以及一个通道级运动模块（Channel-wise Motion Module, CMM），用于高效编码运动特征。随后，我们在ResNet架构中用STM模块替换了原有的残差块，通过引入非常有限的额外计算成本，构建了一个简单而有效的STM网络。大量实验表明，在同时编码空间-时间特征和运动特征的帮助下，所提出的STM网络在时间相关数据集（如Something-Something v1 & v2和Jester）和场景相关数据集（如Kinetics-400、UCF-101和HMDB-51）上均优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Boyuan Jiang MengMeng Wang Weihao Gan Wei Wu Junjie Yan

摘要

空间-时间特征和运动特征是视频动作识别中的两种互补且至关重要的信息。近期的最先进方法采用了3D卷积神经网络（CNN）流来学习空间-时间特征，以及另一个光流流来学习运动特征。在本研究中，我们的目标是在统一的2D框架下高效地编码这两种特征。为此，我们首先提出了一种STM模块，该模块包含一个通道级空间-时间模块（Channel-wise SpatioTemporal Module, CSTM），用于表示空间-时间特征，以及一个通道级运动模块（Channel-wise Motion Module, CMM），用于高效编码运动特征。随后，我们在ResNet架构中用STM模块替换了原有的残差块，通过引入非常有限的额外计算成本，构建了一个简单而有效的STM网络。大量实验表明，在同时编码空间-时间特征和运动特征的帮助下，所提出的STM网络在时间相关数据集（如Something-Something v1 & v2和Jester）和场景相关数据集（如Kinetics-400、UCF-101和HMDB-51）上均优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

STM：时空和运动编码用于动作识别 | 论文 | HyperAI超神经