
摘要
本文提出了一种统一的视频动作分割框架,该框架基于序列到序列(seq2seq)翻译,在完全监督与时间戳监督两种设置下均实现端到端建模。与当前主流的帧级预测方法不同,本文将动作分割建模为一个seq2seq翻译任务,即从视频帧序列映射到动作片段序列。为应对输入序列长、输出序列短以及训练视频数量有限等挑战,本文在标准Transformer seq2seq模型的基础上,提出了一系列结构改进与辅助损失函数。具体而言,通过引入基于帧级别的辅助监督信号来增强编码器的表达能力,并设计了一个独立的对齐解码器以实现对动作持续时间的隐式预测。此外,本文进一步提出一种约束型k-medoids算法,将框架拓展至时间戳监督设置,用于生成伪分割标签。实验结果表明,所提出的框架在完全监督与时间戳监督两种设置下均表现稳定,且在多个基准数据集上达到或超越现有最先进水平。相关代码已公开,地址为:https://github.com/boschresearch/UVAST。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-50-salads-1 | UVAST | Acc: 87.4 Edit: 83.9 F1@10%: 89.1 F1@25%: 87.6 F1@50%: 81.7 |
| action-segmentation-on-assembly101 | UVAST | Edit: 31.5 F1@10%: 32.1 F1@25%: 28.3 F1@50%: 20.8 MoF: 37.4 |
| action-segmentation-on-breakfast-1 | UVAST | Acc: 69.7 Average F1: 68.8 Edit: 77.1 F1@10%: 76.9 F1@25%: 71.5 F1@50%: 58 |
| action-segmentation-on-gtea-1 | UVAST | Acc: 80.2 Edit: 92.1 F1@10%: 92.7 F1@25%: 91.3 F1@50%: 81 |