3 个月前

门控-偏移-融合用于视频动作识别

门控-偏移-融合用于视频动作识别

摘要

卷积神经网络(Convolutional Neural Networks, CNNs)是图像识别领域的标准模型。然而,作为二维CNN向视频识别直接扩展的三维CNN(3D CNNs),在标准动作识别基准测试中并未取得与二维CNN相当的成功。3D CNN性能下降的主要原因之一是其计算复杂度显著增加,需要大规模标注数据集才能实现有效训练。为降低3D CNN的复杂度,已有研究提出了三维卷积核分解(3D kernel factorization)方法。然而,现有分解方法大多依赖人工设计且结构固定,缺乏灵活性。本文提出一种新型时空特征提取模块——门控-位移-融合(Gate-Shift-Fuse, GSF),该模块能够动态控制时空分解过程中的特征交互,并自适应地根据数据特性在时间维度上路由特征,以数据依赖的方式进行融合。GSF利用分组空间门控机制对输入张量进行分解,并通过通道加权策略对分解后的张量进行融合。GSF可无缝嵌入现有的二维CNN架构中,将其高效转化为具备强时空建模能力的特征提取器,且仅引入可忽略的参数量与计算开销。我们在两种主流的二维CNN架构上对GSF进行了全面分析,并在五个标准动作识别基准上取得了当前最优或具有竞争力的性能表现,验证了该方法的有效性与通用性。

代码仓库

swathikirans/gsf
官方
pytorch
GitHub 中提及
EdoWhite/Gate-Shift-Pose
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-on-epic-kitchens-100GSF
Action@1: 44.48
Noun@1: 53.18
Verb@1: 69.06

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
门控-偏移-融合用于视频动作识别 | 论文 | HyperAI超神经