
摘要
本文探讨了无监督动作分割问题。先前的研究通过一种特征嵌入方法捕捉视频在帧级别的时序结构,该方法编码了视频中各帧的时间位置。我们在先前研究的基础上提出了一种新的自监督学习(Self-Supervised Learning, SSL)方法,该方法不仅考虑了视频的帧级别结构,还考虑了动作级别的结构。我们的自监督学习训练了一个递归神经网络(RNN),使其能够识别正向和负向的动作序列,而RNN的隐藏层则被用作我们新的动作级别特征嵌入。正向和负向序列由从视频中采样的动作片段组成,其中前者采样的动作片段遵循其在视频中的时间顺序,后者则被打乱。由于没有可用的动作监督信息,且我们的自监督学习需要访问动作片段,因此我们定义了一个隐马尔可夫模型(Hidden Markov Model, HMM),该模型显式地建模了动作长度,并使用维特比算法(Viterbi Algorithm)推断出最大后验概率(Maximum A Posteriori, MAP)的动作分割。所得的动作分割结果被用作估计我们动作级别特征嵌入和更新HMM的伪真实标签。我们在广义EM框架内交替执行上述步骤,以确保算法收敛。我们在Breakfast、YouTube Instructions和50Salads数据集上的评估结果显示,本方法优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-action-segmentation-on-breakfast | ASAL | Acc: 52.5 F1: 37.9 |
| unsupervised-action-segmentation-on-youtube | ASAL | Acc: 44.9 F1: 32.1 |