3 个月前

多尺度运动感知模块用于视频动作识别

多尺度运动感知模块用于视频动作识别

摘要

由于光流计算所需时间较长,近期研究提出采用相关性操作(correlation operation)作为提取运动特征的替代方法。尽管相关性操作在几乎不增加浮点运算量(FLOPs)的情况下显著提升了性能,但其每FLOP的延迟远高于卷积操作,且随着搜索区域(searching patch)增大,整体延迟明显增加。然而,若减小相关性操作中的搜索区域,又因无法捕捉较大位移而必然导致性能下降。针对这一问题,本文提出一种高效且低延迟的多尺度运动感知(Multi-Scale Motion-Aware, MSMA)模块。该模块在不同尺度上采用较小的搜索区域,从而高效地从大位移运动中提取运动特征。MSMA模块可灵活集成至多种CNN骨干网络,并具有良好的泛化能力。当应用于TSM ResNet-50时,MSMA模块在NVIDIA Tesla V100 GPU上仅引入约17.6%的额外延迟,却在Something-Something V1与V2以及Diving-48数据集上取得了当前最优的性能表现。

基准测试

基准方法指标
action-recognition-in-videos-on-somethingMSMA (8+16frames)
Top-1 Accuracy: 68.2
action-recognition-in-videos-on-something-1MSMA (8+16frames)
Top 1 Accuracy: 57.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供