
摘要
细粒度动作的联合分割与分类在人机交互、视频监控及人类技能评估等应用中具有重要意义。然而,尽管大规模动作分类领域近年来取得了显著进展,当前最先进的细粒度动作识别方法性能仍然有限。为此,我们提出了一种结合低层时空特征与高层分段分类器的动作分割模型。该模型中的时空卷积神经网络(CNN)包含两个组成部分:空间分支利用卷积滤波器捕捉物体及其相互关系的信息,时间分支则采用大尺寸一维卷积滤波器,以捕捉物体间关系随时间演变的动态特征。这些提取出的时空特征与一个半马尔可夫模型相结合,用于建模不同动作之间的状态转移。我们进一步提出一种高效的约束性分段推理算法,其计算速度比现有方法快多个数量级。在烹饪动作与外科手术动作数据集上的实验结果表明,所提出的分段时空CNN模型显著优于近期的基准方法,充分验证了其有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-gtea-1 | ST-CNN | Acc: 60.6 Edit: - F1@10%: 58.7 F1@25%: 54.4 F1@50%: 41.9 |
| action-segmentation-on-jigsaws | ST-CNN+Seg | Accuracy: 74.22 Edit Distance: 66.56 |