3 个月前

MS-TCN++：用于动作分割的多阶段时序卷积网络

Shijie Li Yazan Abu Farha Yun Liu Ming-Ming Cheng Juergen Gall

摘要

随着深度学习在短时剪辑视频分类任务中的成功，研究重点逐渐转向长时未剪辑视频中活动的时序分割与分类。当前最先进的动作分割方法通常采用多层时间卷积和时间池化操作。尽管这些方法在捕捉时间依赖性方面表现良好，但其预测结果仍存在过度分割的问题。本文提出了一种多阶段时序动作分割架构，有效克服了以往方法的局限性。该架构的第一阶段生成初步预测，后续阶段逐步对其进行优化。在每一阶段中，我们堆叠多层空洞时间卷积，以较少的参数实现较大的感受野。尽管该架构本身已表现出优异性能，但底层仍受限于较小的感受野。为解决这一问题，我们提出一种双空洞卷积层，能够同时融合大、小感受野的优势。此外，我们进一步解耦第一阶段与后续优化阶段的设计，以适应两者不同的任务需求。大量实验验证表明，所提模型在捕捉长程时序依赖性和准确识别动作片段方面具有显著优势。在三个公开数据集——50Salads、佐治亚理工学院第一人称活动数据集（GTEA）以及Breakfast数据集上，我们的模型均取得了当前最优的性能表现。

代码仓库

sj-li/MS-TCN2

pytorch

GitHub 中提及

基准测试

基准	方法	指标
action-segmentation-on-50-salads-1	MS-TCN++(sh)	Acc: 82.2 Edit: 70.7 F1@10%: 78.7 F1@25%: 76.6 F1@50%: 68.3
action-segmentation-on-50-salads-1	MS-TCN++	Acc: 83.7 Edit: 74.3 F1@10%: 80.7 F1@25%: 78.5 F1@50%: 70.1
action-segmentation-on-assembly101	MS-TCN++	Edit: 30.7 F1@10%: 31.6 F1@25%: 27.8 F1@50%: 20.6 MoF: 37.1
action-segmentation-on-breakfast-1	MS-TCN++ (I3D)	Acc: 67.6 Average F1: 56.2 Edit: 65.6 F1@10%: 64.1 F1@25%: 58.6 F1@50%: 45.9
action-segmentation-on-breakfast-1	MS-TCN++(I3D) (sh)	Acc: 67.3 Average F1: 55.2 Edit: 64.9 F1@10%: 63.3 F1@25%: 57.7 F1@50%: 44.5
action-segmentation-on-gtea-1	MS-TCN++	Acc: 80.1 Edit: 83.5 F1@10%: 88.8 F1@25%: 85.7 F1@50%: 76.0
action-segmentation-on-gtea-1	MS-TCN++(sh)	Acc: 79.7 Edit: 83.0 F1@10%: 88.2 F1@25%: 86.2 F1@50%: 75.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供