17 天前

时间片段网络:面向深度动作识别的良好实践

时间片段网络:面向深度动作识别的良好实践

摘要

深度卷积网络在静态图像的视觉识别任务中取得了巨大成功。然而,在视频动作识别任务中,其相对于传统方法的优势并不十分明显。本文旨在探索设计高效卷积神经网络(ConvNet)架构以实现视频动作识别的基本原理,并在训练样本有限的情况下学习此类模型。我们的首个贡献是提出一种名为时序片段网络(Temporal Segment Network, TSN)的新框架,用于基于视频的动作识别。该框架基于长时程时间结构建模的思想,结合稀疏的时间采样策略与视频级监督机制,从而能够高效且有效地利用完整的动作视频进行学习。另一项贡献是借助TSN框架,对在视频数据上训练ConvNet的一系列良好实践进行了系统研究。所提出的方法在HMDB51(69.4%)和UCF101(94.2%)两个数据集上均取得了当时最先进的性能表现。此外,我们还对学习到的ConvNet模型进行了可视化分析,定性地验证了时序片段网络及所提出良好实践的有效性。

基准测试

基准方法指标
action-classification-on-kinetics-400TSN
Acc@1: 73.9
Acc@5: 91.1
action-recognition-in-videos-on-hmdb-51Temporal Segment Networks
Average accuracy of 3 splits: 69.4
action-recognition-in-videos-on-ucf101Temporal Segment Networks
3-fold Accuracy: 94.2
multimodal-activity-recognition-on-ev-actionTSN (RGB)
Accuracy: 73.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时间片段网络:面向深度动作识别的良好实践 | 论文 | HyperAI超神经