4 个月前

无监督动作分割的交替学习动作洗牌方法

无监督动作分割的交替学习动作洗牌方法

摘要

本文探讨了无监督动作分割问题。先前的研究通过一种特征嵌入方法捕捉视频在帧级别的时序结构,该方法编码了视频中各帧的时间位置。我们在先前研究的基础上提出了一种新的自监督学习(Self-Supervised Learning, SSL)方法,该方法不仅考虑了视频的帧级别结构,还考虑了动作级别的结构。我们的自监督学习训练了一个递归神经网络(RNN),使其能够识别正向和负向的动作序列,而RNN的隐藏层则被用作我们新的动作级别特征嵌入。正向和负向序列由从视频中采样的动作片段组成,其中前者采样的动作片段遵循其在视频中的时间顺序,后者则被打乱。由于没有可用的动作监督信息,且我们的自监督学习需要访问动作片段,因此我们定义了一个隐马尔可夫模型(Hidden Markov Model, HMM),该模型显式地建模了动作长度,并使用维特比算法(Viterbi Algorithm)推断出最大后验概率(Maximum A Posteriori, MAP)的动作分割。所得的动作分割结果被用作估计我们动作级别特征嵌入和更新HMM的伪真实标签。我们在广义EM框架内交替执行上述步骤,以确保算法收敛。我们在Breakfast、YouTube Instructions和50Salads数据集上的评估结果显示,本方法优于现有的最先进方法。

基准测试

基准方法指标
unsupervised-action-segmentation-on-breakfastASAL
Acc: 52.5
F1: 37.9
unsupervised-action-segmentation-on-youtubeASAL
Acc: 44.9
F1: 32.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督动作分割的交替学习动作洗牌方法 | 论文 | HyperAI超神经