3 个月前

用于动作分割的交叉增强Transformer

用于动作分割的交叉增强Transformer

摘要

时间卷积一直是动作分割领域的主流范式,通过增加卷积层来扩展长期感受野。然而,深层网络会导致对帧级识别至关重要的局部信息丢失。为解决上述问题,本文提出一种新颖的编码器-解码器结构,称为交叉增强Transformer(Cross-Enhancement Transformer)。该方法通过交互式自注意力机制,有效学习时间结构表征。具体而言,将编码器中每一层的卷积特征图与解码器通过自注意力机制生成的一组特征进行拼接,从而在一系列帧级动作中同时融合局部与全局信息。此外,本文还提出一种新型损失函数,用于增强训练过程,该函数对过度分割错误施加惩罚。实验结果表明,所提出的框架在三个具有挑战性的数据集——50Salads、Georgia Tech 智能眼镜活动数据集以及Breakfast数据集上均达到了当前最优性能。

代码仓库

Wangjhdeveloper/CETNet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-50-salads-1CETNet
Acc: 86.9
Edit: 81.7
F1@10%: 87.6
F1@25%: 86.5
F1@50%: 80.1
action-segmentation-on-breakfast-1CETNet
Acc: 74.9
Average F1: 71.8
Edit: 77.8
F1@10%: 79.3
F1@25%: 74.3
F1@50%: 61.9
action-segmentation-on-gtea-1CETNet
Acc: 80.3
Edit: 87.9
F1@10%: 91.8
F1@25%: 91.2
F1@50%: 81.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于动作分割的交叉增强Transformer | 论文 | HyperAI超神经