3 个月前

用于动作分割的深度可分离时序卷积网络

用于动作分割的深度可分离时序卷积网络

摘要

在长时、未修剪的RGB视频中实现细粒度的时间动作分割,是视觉人机交互领域的一个关键研究课题。近年来,基于时间卷积的方法通常采用编码器-解码器(Encoder-Decoder, ED)架构,或在连续卷积层中使用倍增扩张因子(dilation with doubling factor)来实现视频动作分割。然而,ED网络通常在较低的时间分辨率下运行,而连续层中的扩张操作则容易引发网格伪影(gridding artifacts)问题。为此,本文提出一种深度可分离时间卷积网络(Depthwise Separable Temporal Convolution Network, DS-TCN),该网络在全时间分辨率下运行,并显著降低了网格伪影效应。DS-TCN的核心组件为残差深度可分离扩张块(Residual Depthwise Dilated Block, RDDB)。通过RDDB,我们系统探索了大卷积核与小扩张率之间的权衡关系。实验结果表明,DS-TCN能够高效捕捉长期时序依赖关系以及局部时间特征。在GTEA、50Salads和Breakfast三个基准数据集上的评估显示,尽管参数量相对较少,DS-TCN仍显著优于现有的ED-TCN及基于扩张卷积的TCN基线方法。

基准测试

基准方法指标
action-segmentation-on-50-salads-1DS-TCN
Acc: 80.0
Edit: 70.0
F1@10%: 77.0
F1@25%: 74.43
F1@50%: 65.78
action-segmentation-on-breakfast-1DS-TCN
Acc: 70.75
Average F1: 59.6
Edit: 69.02
F1@10%: 67.70
F1@25%: 62.05
F1@50%: 49.18
action-segmentation-on-gtea-1DS-TCN
Acc: 78.10
Edit: 84.05
F1@10%: 88.30
F1@25%: 85.44
F1@50%: 72.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于动作分割的深度可分离时序卷积网络 | 论文 | HyperAI超神经