
摘要
随着深度学习在短时剪辑视频分类任务中的成功,研究重点逐渐转向长时未剪辑视频中活动的时序分割与分类。当前最先进的动作分割方法通常采用多层时间卷积和时间池化操作。尽管这些方法在捕捉时间依赖性方面表现良好,但其预测结果仍存在过度分割的问题。本文提出了一种多阶段时序动作分割架构,有效克服了以往方法的局限性。该架构的第一阶段生成初步预测,后续阶段逐步对其进行优化。在每一阶段中,我们堆叠多层空洞时间卷积,以较少的参数实现较大的感受野。尽管该架构本身已表现出优异性能,但底层仍受限于较小的感受野。为解决这一问题,我们提出一种双空洞卷积层,能够同时融合大、小感受野的优势。此外,我们进一步解耦第一阶段与后续优化阶段的设计,以适应两者不同的任务需求。大量实验验证表明,所提模型在捕捉长程时序依赖性和准确识别动作片段方面具有显著优势。在三个公开数据集——50Salads、佐治亚理工学院第一人称活动数据集(GTEA)以及Breakfast数据集上,我们的模型均取得了当前最优的性能表现。
代码仓库
sj-li/MS-TCN2
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-50-salads-1 | MS-TCN++(sh) | Acc: 82.2 Edit: 70.7 F1@10%: 78.7 F1@25%: 76.6 F1@50%: 68.3 |
| action-segmentation-on-50-salads-1 | MS-TCN++ | Acc: 83.7 Edit: 74.3 F1@10%: 80.7 F1@25%: 78.5 F1@50%: 70.1 |
| action-segmentation-on-assembly101 | MS-TCN++ | Edit: 30.7 F1@10%: 31.6 F1@25%: 27.8 F1@50%: 20.6 MoF: 37.1 |
| action-segmentation-on-breakfast-1 | MS-TCN++ (I3D) | Acc: 67.6 Average F1: 56.2 Edit: 65.6 F1@10%: 64.1 F1@25%: 58.6 F1@50%: 45.9 |
| action-segmentation-on-breakfast-1 | MS-TCN++(I3D) (sh) | Acc: 67.3 Average F1: 55.2 Edit: 64.9 F1@10%: 63.3 F1@25%: 57.7 F1@50%: 44.5 |
| action-segmentation-on-gtea-1 | MS-TCN++ | Acc: 80.1 Edit: 83.5 F1@10%: 88.8 F1@25%: 85.7 F1@50%: 76.0 |
| action-segmentation-on-gtea-1 | MS-TCN++(sh) | Acc: 79.7 Edit: 83.0 F1@10%: 88.2 F1@25%: 86.2 F1@50%: 75.9 |