17 天前

视频动作识别的时序片段网络

视频动作识别的时序片段网络

摘要

深度卷积网络在图像识别任务中取得了巨大成功。然而,在视频动作识别方面,其相对于传统方法的优势并不十分明显。本文提出了一种通用且灵活的视频级框架,用于在视频中学习动作模型。该方法称为时间片段网络(Temporal Segment Network, TSN),旨在通过一种新型的基于片段的采样与聚合模块,建模长时序结构。这一独特设计使得TSN能够高效地利用完整的动作视频来学习动作模型。所学习的模型可分别通过简单的平均池化和多尺度时间窗口融合,轻松适应剪辑视频(trimmed videos)与非剪辑视频(untrimmed videos)中的动作识别任务。此外,针对训练样本有限的情况,我们还研究了一系列适用于TSN框架的良好实践。所提出的方法在四个具有挑战性的动作识别基准数据集上均取得了当前最优的性能:HMDB51(71.0%)、UCF101(94.9%)、THUMOS14(80.1%)以及ActivityNet v1.2(89.6%)。通过引入所提出的RGB差分(RGB difference)作为运动建模手段,我们的方法在UCF101上仍可达到91.0%的竞争力准确率,同时实现高达340 FPS的运行速度。此外,基于时间片段网络,我们在2016年ActivityNet挑战赛的视频分类赛道中,从24支参赛队伍中脱颖而出,夺得冠军,充分验证了TSN方法及其所提出良好实践的有效性。

基准测试

基准方法指标
action-classification-on-moments-in-timeTSN-2Stream
Top 5 Accuracy: 50.10%
video-classification-on-coin-1TSN
Accuracy (%): 73.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频动作识别的时序片段网络 | 论文 | HyperAI超神经