4 个月前

无监督学习的动作类别连续时间嵌入

无监督学习的动作类别连续时间嵌入

摘要

近期,对未剪辑视频中动作的时间检测与分割任务引起了越来越多的关注。在此背景下,一个主要问题是如何定义和标注动作边界以创建用于训练的注释,这需要耗费大量时间和成本。为了解决这一问题,我们提出了一种无监督方法,用于从未剪辑的视频序列中学习动作类别。为此,我们利用了帧级特征的连续时间嵌入(continuous temporal embedding),从而充分利用活动的顺序性质。基于嵌入所生成的潜在空间(latent space),我们在所有视频中识别出对应于语义上有意义的动作类别的时间片段聚类(clusters of temporal segments)。该方法在三个具有挑战性的数据集上进行了评估,分别是Breakfast数据集、YouTube Instructions数据集和50Salads数据集。尽管以往的研究假设视频包含相同高层次的活动,我们进一步展示了所提出的这种方法还可以应用于更为一般的情况,即视频内容未知的情形。

代码仓库

frans-db/progress-prediction
pytorch
GitHub 中提及
annusha/unsup_temp_embed
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-action-segmentation-on-breakfastCTE
Acc: 41.8
F1: 26.4
JSD: 87.4
Precision: 25.8
Recall: 27.0
unsupervised-action-segmentation-on-ikea-asmCTE
Accuracy: 23.1
F1: 22.6
JSD: 73.7
Precision: 28.1
Recall: 18.9
unsupervised-action-segmentation-on-youtubeCTE
Acc: 39
F1: 28.3
Precision: 39.3
Recall: 22.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督学习的动作类别连续时间嵌入 | 论文 | HyperAI超神经