
摘要
近期,对未剪辑视频中动作的时间检测与分割任务引起了越来越多的关注。在此背景下,一个主要问题是如何定义和标注动作边界以创建用于训练的注释,这需要耗费大量时间和成本。为了解决这一问题,我们提出了一种无监督方法,用于从未剪辑的视频序列中学习动作类别。为此,我们利用了帧级特征的连续时间嵌入(continuous temporal embedding),从而充分利用活动的顺序性质。基于嵌入所生成的潜在空间(latent space),我们在所有视频中识别出对应于语义上有意义的动作类别的时间片段聚类(clusters of temporal segments)。该方法在三个具有挑战性的数据集上进行了评估,分别是Breakfast数据集、YouTube Instructions数据集和50Salads数据集。尽管以往的研究假设视频包含相同高层次的活动,我们进一步展示了所提出的这种方法还可以应用于更为一般的情况,即视频内容未知的情形。
代码仓库
frans-db/progress-prediction
pytorch
GitHub 中提及
annusha/unsup_temp_embed
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-action-segmentation-on-breakfast | CTE | Acc: 41.8 F1: 26.4 JSD: 87.4 Precision: 25.8 Recall: 27.0 |
| unsupervised-action-segmentation-on-ikea-asm | CTE | Accuracy: 23.1 F1: 22.6 JSD: 73.7 Precision: 28.1 Recall: 18.9 |
| unsupervised-action-segmentation-on-youtube | CTE | Acc: 39 F1: 28.3 Precision: 39.3 Recall: 22.1 |