3 个月前

MARS:用于动作识别的运动增强RGB流

MARS:用于动作识别的运动增强RGB流

摘要

目前最先进的动作识别方法大多采用双流架构结合3D卷积:一为处理RGB帧的外观流,另一为处理光流帧的运动流。尽管融合光流与RGB信息能够提升性能,但精确计算光流的开销较大,显著增加了动作识别的延迟,限制了双流方法在实际应用中对低延迟有严格要求场景的使用。本文提出两种学习策略,用于训练一个标准的3D卷积神经网络(CNN),该网络仅基于RGB帧进行操作,但能够模拟运动流的表征能力,从而在测试阶段无需计算光流。首先,通过最小化与光流流之间的特征级损失,我们证明网络能够以高保真度重现运动流的特征表达。其次,为更有效地融合外观与运动信息,我们采用特征损失与标准交叉熵损失的线性组合进行联合训练。将采用该联合损失训练得到的流称为“运动增强型RGB流”(Motion-Augmented RGB Stream, MARS)。作为单一流架构,MARS在性能上优于单独使用RGB或光流的流:例如在Kinetics数据集上,MARS达到72.7%的准确率,显著高于仅使用RGB流的72.0%和仅使用光流流的65.6%。

基准测试

基准方法指标
action-classification-on-kinetics-400MARS+RGB+Flow (64 frames)
Acc@1: 74.9
action-classification-on-kinetics-400MARS+RGB+Flow (16 frames)
Acc@1: 68.9
action-classification-on-minikineticsMARS+RGB+Flow (16 frames)
Top-1 Accuracy: 73.5
action-recognition-in-videos-on-hmdb-51MARS+RGB+FLow (64 frames, Kinetics pretrained)
Average accuracy of 3 splits: 80.9
action-recognition-in-videos-on-something-1MARS+RGB+Flow (16 frames, Kinetics pretrained)
Top 1 Accuracy: 40.4
action-recognition-in-videos-on-something-1MARS+RGB+Flow (64 frames, Kinetics pretrained)
Top 1 Accuracy: 53.0
action-recognition-in-videos-on-ucf101MARS+RGB+Flow (64 frames, Kinetics pretrained)
3-fold Accuracy: 97.8
action-recognition-in-videos-on-ucf101MARS+RGB+Flow (16 frames)
3-fold Accuracy: 95.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MARS:用于动作识别的运动增强RGB流 | 论文 | HyperAI超神经