4 个月前

基于排列意识的动作分割通过无监督帧到段对齐实现

基于排列意识的动作分割通过无监督帧到段对齐实现

摘要

本文提出了一种基于变压器的无监督时间活动分割框架,该框架不仅利用了帧级线索,还利用了段落级线索。这与以往仅依赖帧级信息的方法形成了对比。我们的方法首先通过一个基于变压器编码器的帧级预测模块来估计逐帧的动作类别。该模块通过时间最优传输(temporal optimal transport)以无监督的方式进行训练。为了利用段落级信息,我们采用了段落级预测模块和帧到段落对齐模块。前者包括一个用于估计视频转录本的变压器解码器,而后者则将帧级特征与段落级特征进行匹配,生成具有排列意识的分割结果。此外,受时间最优传输的启发,我们引入了一种简单而有效的伪标签(pseudo labels),用于上述模块的无监督训练。我们在四个公开数据集上进行了实验,即50 Salads、YouTube Instructions、Breakfast和Desktop Assembly,结果显示我们的方法在无监督活动分割方面达到了与以往方法相当或更好的性能。

代码仓库

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于排列意识的动作分割通过无监督帧到段对齐实现 | 论文 | HyperAI超神经