
摘要
我们提出了一种用于无监督活动分割的新方法,该方法将视频帧聚类作为预训练任务,并同时进行表示学习和在线聚类。这与以往的研究不同,以往的方法中表示学习和聚类通常是顺序进行的。我们通过使用时间最优传输(temporal optimal transport)来利用视频中的时间信息。具体而言,我们在标准最优传输模块中引入了一个时间正则化项,以保持活动的时间顺序来进行伪标签聚类分配。时间最优传输模块使我们的方法能够为无监督活动分割学习有效的表示。此外,以前的方法需要在离线方式下存储整个数据集的学习特征后再进行聚类,而我们的方法则是以在线方式一次处理一个迷你批次。在三个公开数据集(50-Salads、YouTube Instructions 和 Breakfast)以及我们自己的数据集(即桌面组装数据集)上的广泛评估表明,尽管我们的方法具有显著较少的内存限制,但其性能与之前的方法相当或更好。我们的代码和数据集可在研究网站上获取:https://retrocausal.ai/research/
代码仓库
trquhuytin/TOT-CVPR22
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-action-segmentation-on-50-salads | TOT | Acc: 40.6 F1: 30 |
| unsupervised-action-segmentation-on-50-salads | TOT+TCL | Acc: 45.3 F1: 32.9 |
| unsupervised-action-segmentation-on-breakfast | TOT | Acc: 47.5 F1: 31.0 JSD: 90.2 Precision: 37.7 Recall: 26.3 |
| unsupervised-action-segmentation-on-breakfast | TOT+TCL | Acc: 39.0 F1: 30.3 JSD: 85.6 Precision: 26.2 Recall: 36.0 |
| unsupervised-action-segmentation-on-ikea-asm | TOT | Accuracy: 21.0 F1: 20.1 JSD: 80.0 Precision: 24.4 Recall: 17.1 |
| unsupervised-action-segmentation-on-ikea-asm | TOT+TCL | Accuracy: 23.8 F1: 20.9 JSD: 79.5 Precision: 25.5 Recall: 17.7 |
| unsupervised-action-segmentation-on-youtube | TOT | Acc: 40.6 F1: 30.0 Precision: 28.7 Recall: 31.4 |
| unsupervised-action-segmentation-on-youtube | TOT+TCL | Acc: 45.3 F1: 32.9 Precision: 40.1 Recall: 27.9 |