3 个月前

ASFormer:用于动作分割的Transformer

ASFormer:用于动作分割的Transformer

摘要

在动作分割任务中,典型的算法通常采用时间建模方法,以预测时长为一分钟的日常活动中每一帧所发生的动作。近期研究表明,Transformer在建模序列数据中各元素间关系方面具有巨大潜力。然而,将Transformer直接应用于动作分割任务时仍存在若干关键问题:在小规模训练数据下缺乏归纳偏置(inductive biases)、处理长序列输入的能力有限,以及解码器架构难以有效利用多个动作片段之间的时序关联来优化初始预测结果。为解决上述挑战,我们提出了一种高效的基于Transformer的动作用分割模型——ASFormer,其具备三个显著特点:(i) 鉴于特征具有高度局部性,我们显式引入局部连接的归纳先验(inductive priors),从而将假设空间限制在合理范围内,有助于在小样本训练条件下学习到合适的动作分割目标函数;(ii) 采用预定义的分层表示模式,高效处理长序列输入;(iii) 精心设计解码器结构,以基于编码器输出的初始预测结果进行迭代优化与细化。在三个公开数据集上的大量实验验证了所提方法的有效性。代码已开源,地址为:\url{https://github.com/ChinaYi/ASFormer}。

代码仓库

chinayi/asformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-50-salads-1ASFormer+ASRF
Acc: 85.9
Edit: 81.9
F1@10%: 85.1
F1@25%: 85.4
F1@50%: 79.3
action-segmentation-on-50-salads-1ASFormer
Acc: 85.6
Edit: 79.6
F1@10%: 85.1
F1@25%: 83.4
F1@50%: 76.0
action-segmentation-on-assembly101ASFormer
Edit: 30.5
F1@10%: 33.4
F1@25%: 29.2
F1@50%: 21.4
MoF: 38.8
action-segmentation-on-breakfast-1ASFormer
Acc: 73.5
Average F1: 68.0
Edit: 75.0
F1@10%: 76.0
F1@25%: 70.6
F1@50%: 57.4
action-segmentation-on-gtea-1ASFormer
Acc: 79.7
Edit: 84.6
F1@10%: 90.1
F1@25%: 88.8
F1@50%: 79.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ASFormer:用于动作分割的Transformer | 论文 | HyperAI超神经