3 个月前

最大化与恢复:通过膨胀传递与时间重建实现动作分割

最大化与恢复:通过膨胀传递与时间重建实现动作分割

摘要

动作分割旨在将视频划分为不同动作的片段。近年来的研究主要致力于处理长时、未剪辑视频中的长程依赖问题,但仍面临过度分割以及因模型复杂度增加导致性能饱和的问题。本文提出一种“分而治之”的策略,首先最大化模型在帧级别上的分类准确率,随后有效降低过度分割误差。该策略通过一种名为“空洞传递与重建网络”(Dilation Passing and Reconstruction Network)的架构实现,该网络由两部分组成:空洞传递网络(Dilation Passing Network),通过传播不同空洞率的信息来提升分类精度;以及时间重建网络(Temporal Reconstruction Network),通过对空洞传递网络输出特征进行时间维度上的编码与解码,减少过度分割错误。此外,本文还提出一种加权时间均方误差损失函数,进一步抑制过度分割现象。在50Salads、GTEA和Breakfast三个公开数据集上的实验结果表明,所提模型在性能上显著优于现有最先进的方法。

基准测试

基准方法指标
action-segmentation-on-50-salads-1DPRN
Acc: 87.2
Edit: 82.0
F1@10%: 87.8
F1@25%: 86.3
F1@50%: 79.4
action-segmentation-on-breakfast-1DPRN
Acc: 71.7
Average F1: 67.9
Edit: 75.1
F1@10%: 75.6
F1@25%: 70.5
F1@50%: 57.6
action-segmentation-on-gtea-1DPRN
Acc: 82.0
Edit: 90.9
F1@10%: 92.9
F1@25%: 92.0
F1@50%: 82.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
最大化与恢复:通过膨胀传递与时间重建实现动作分割 | 论文 | HyperAI超神经