
摘要
深度卷积网络在图像识别任务中取得了巨大成功。然而,在视频动作识别方面,其相对于传统方法的优势并不十分明显。本文提出了一种通用且灵活的视频级框架,用于在视频中学习动作模型。该方法称为时间片段网络(Temporal Segment Network, TSN),旨在通过一种新型的基于片段的采样与聚合模块,建模长时序结构。这一独特设计使得TSN能够高效地利用完整的动作视频来学习动作模型。所学习的模型可分别通过简单的平均池化和多尺度时间窗口融合,轻松适应剪辑视频(trimmed videos)与非剪辑视频(untrimmed videos)中的动作识别任务。此外,针对训练样本有限的情况,我们还研究了一系列适用于TSN框架的良好实践。所提出的方法在四个具有挑战性的动作识别基准数据集上均取得了当前最优的性能:HMDB51(71.0%)、UCF101(94.9%)、THUMOS14(80.1%)以及ActivityNet v1.2(89.6%)。通过引入所提出的RGB差分(RGB difference)作为运动建模手段,我们的方法在UCF101上仍可达到91.0%的竞争力准确率,同时实现高达340 FPS的运行速度。此外,基于时间片段网络,我们在2016年ActivityNet挑战赛的视频分类赛道中,从24支参赛队伍中脱颖而出,夺得冠军,充分验证了TSN方法及其所提出良好实践的有效性。
代码仓库
yjxiong/temporal-segment-networks
官方
pytorch
GitHub 中提及
open-mmlab/mmaction
pytorch
peachman05/action-recognition-tutorial
tf
GitHub 中提及
thaitruongan/camera-surveillance-ai
tf
GitHub 中提及
ayushrox/TSN_Colab
GitHub 中提及
mtlouie-unm/alome-tsn
pytorch
GitHub 中提及
open-mmlab/mmaction2
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-moments-in-time | TSN-2Stream | Top 5 Accuracy: 50.10% |
| video-classification-on-coin-1 | TSN | Accuracy (%): 73.4 |