4 个月前

无监督动作分割通过联合表示学习和在线聚类实现

无监督动作分割通过联合表示学习和在线聚类实现

摘要

我们提出了一种用于无监督活动分割的新方法,该方法将视频帧聚类作为预训练任务,并同时进行表示学习和在线聚类。这与以往的研究不同,以往的方法中表示学习和聚类通常是顺序进行的。我们通过使用时间最优传输(temporal optimal transport)来利用视频中的时间信息。具体而言,我们在标准最优传输模块中引入了一个时间正则化项,以保持活动的时间顺序来进行伪标签聚类分配。时间最优传输模块使我们的方法能够为无监督活动分割学习有效的表示。此外,以前的方法需要在离线方式下存储整个数据集的学习特征后再进行聚类,而我们的方法则是以在线方式一次处理一个迷你批次。在三个公开数据集(50-Salads、YouTube Instructions 和 Breakfast)以及我们自己的数据集(即桌面组装数据集)上的广泛评估表明,尽管我们的方法具有显著较少的内存限制,但其性能与之前的方法相当或更好。我们的代码和数据集可在研究网站上获取:https://retrocausal.ai/research/

代码仓库

基准测试

基准方法指标
unsupervised-action-segmentation-on-50-saladsTOT
Acc: 40.6
F1: 30
unsupervised-action-segmentation-on-50-saladsTOT+TCL
Acc: 45.3
F1: 32.9
unsupervised-action-segmentation-on-breakfastTOT
Acc: 47.5
F1: 31.0
JSD: 90.2
Precision: 37.7
Recall: 26.3
unsupervised-action-segmentation-on-breakfastTOT+TCL
Acc: 39.0
F1: 30.3
JSD: 85.6
Precision: 26.2
Recall: 36.0
unsupervised-action-segmentation-on-ikea-asmTOT
Accuracy: 21.0
F1: 20.1
JSD: 80.0
Precision: 24.4
Recall: 17.1
unsupervised-action-segmentation-on-ikea-asmTOT+TCL
Accuracy: 23.8
F1: 20.9
JSD: 79.5
Precision: 25.5
Recall: 17.7
unsupervised-action-segmentation-on-youtubeTOT
Acc: 40.6
F1: 30.0
Precision: 28.7
Recall: 31.4
unsupervised-action-segmentation-on-youtubeTOT+TCL
Acc: 45.3
F1: 32.9
Precision: 40.1
Recall: 27.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督动作分割通过联合表示学习和在线聚类实现 | 论文 | HyperAI超神经