3 个月前

通过序列到序列翻译实现统一的全监督与时间戳监督时序动作分割

通过序列到序列翻译实现统一的全监督与时间戳监督时序动作分割

摘要

本文提出了一种统一的视频动作分割框架,该框架基于序列到序列(seq2seq)翻译,在完全监督与时间戳监督两种设置下均实现端到端建模。与当前主流的帧级预测方法不同,本文将动作分割建模为一个seq2seq翻译任务,即从视频帧序列映射到动作片段序列。为应对输入序列长、输出序列短以及训练视频数量有限等挑战,本文在标准Transformer seq2seq模型的基础上,提出了一系列结构改进与辅助损失函数。具体而言,通过引入基于帧级别的辅助监督信号来增强编码器的表达能力,并设计了一个独立的对齐解码器以实现对动作持续时间的隐式预测。此外,本文进一步提出一种约束型k-medoids算法,将框架拓展至时间戳监督设置,用于生成伪分割标签。实验结果表明,所提出的框架在完全监督与时间戳监督两种设置下均表现稳定,且在多个基准数据集上达到或超越现有最先进水平。相关代码已公开,地址为:https://github.com/boschresearch/UVAST。

基准测试

基准方法指标
action-segmentation-on-50-salads-1UVAST
Acc: 87.4
Edit: 83.9
F1@10%: 89.1
F1@25%: 87.6
F1@50%: 81.7
action-segmentation-on-assembly101UVAST
Edit: 31.5
F1@10%: 32.1
F1@25%: 28.3
F1@50%: 20.8
MoF: 37.4
action-segmentation-on-breakfast-1UVAST
Acc: 69.7
Average F1: 68.8
Edit: 77.1
F1@10%: 76.9
F1@25%: 71.5
F1@50%: 58
action-segmentation-on-gtea-1UVAST
Acc: 80.2
Edit: 92.1
F1@10%: 92.7
F1@25%: 91.3
F1@50%: 81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过序列到序列翻译实现统一的全监督与时间戳监督时序动作分割 | 论文 | HyperAI超神经