
摘要
在动作分割任务中,典型的算法通常采用时间建模方法,以预测时长为一分钟的日常活动中每一帧所发生的动作。近期研究表明,Transformer在建模序列数据中各元素间关系方面具有巨大潜力。然而,将Transformer直接应用于动作分割任务时仍存在若干关键问题:在小规模训练数据下缺乏归纳偏置(inductive biases)、处理长序列输入的能力有限,以及解码器架构难以有效利用多个动作片段之间的时序关联来优化初始预测结果。为解决上述挑战,我们提出了一种高效的基于Transformer的动作用分割模型——ASFormer,其具备三个显著特点:(i) 鉴于特征具有高度局部性,我们显式引入局部连接的归纳先验(inductive priors),从而将假设空间限制在合理范围内,有助于在小样本训练条件下学习到合适的动作分割目标函数;(ii) 采用预定义的分层表示模式,高效处理长序列输入;(iii) 精心设计解码器结构,以基于编码器输出的初始预测结果进行迭代优化与细化。在三个公开数据集上的大量实验验证了所提方法的有效性。代码已开源,地址为:\url{https://github.com/ChinaYi/ASFormer}。
代码仓库
chinayi/asformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-50-salads-1 | ASFormer+ASRF | Acc: 85.9 Edit: 81.9 F1@10%: 85.1 F1@25%: 85.4 F1@50%: 79.3 |
| action-segmentation-on-50-salads-1 | ASFormer | Acc: 85.6 Edit: 79.6 F1@10%: 85.1 F1@25%: 83.4 F1@50%: 76.0 |
| action-segmentation-on-assembly101 | ASFormer | Edit: 30.5 F1@10%: 33.4 F1@25%: 29.2 F1@50%: 21.4 MoF: 38.8 |
| action-segmentation-on-breakfast-1 | ASFormer | Acc: 73.5 Average F1: 68.0 Edit: 75.0 F1@10%: 76.0 F1@25%: 70.6 F1@50%: 57.4 |
| action-segmentation-on-gtea-1 | ASFormer | Acc: 79.7 Edit: 84.6 F1@10%: 90.1 F1@25%: 88.8 F1@50%: 79.2 |