
摘要
在视频中识别并时间分割细粒度的人类动作对于机器人技术、监控、教育等领域至关重要。传统的解决方法通常将这一问题分解为两个步骤:首先从视频帧中提取局部时空特征,然后将其输入到一个能够捕捉高层次时间模式的时间分类器中。我们引入了一种新的时间模型类别,称为时间卷积网络(Temporal Convolutional Networks, TCNs),该模型通过层次化的时序卷积来执行细粒度的动作分割或检测。我们的编码器-解码器TCN利用池化和上采样高效地捕捉长距离的时间模式,而我们的膨胀TCN则使用膨胀卷积。我们展示了TCNs能够捕捉动作组合、片段持续时间和长距离依赖关系,并且训练速度比竞争的基于LSTM的循环神经网络快一个数量级。我们将这些模型应用于三个具有挑战性的细粒度数据集,并显示了相对于现有技术的巨大改进。
代码仓库
sadari1/TumorDetectionDeepLearning
GitHub 中提及
colincsl/TemporalConvolutionalNetworks
tf
GitHub 中提及
yz-cnsdqz/TemporalActionParsing-FineGrained
tf
GitHub 中提及
coderSkyChen/Action_Recognition_Zoo
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-gtea-1 | ED-TCN | Acc: 64.0 Edit: - F1@10%: 72.2 F1@25%: 69.3 F1@50%: 56.0 |
| skeleton-based-action-recognition-on-varying | TCN | Accuracy (AV I): 43% Accuracy (AV II): 64% Accuracy (CS): 56% Accuracy (CV I): 16% Accuracy (CV II): 43% |