3 个月前

边界感知的级联网络用于时间动作分割

边界感知的级联网络用于时间动作分割

摘要

在未修剪视频中识别人类动作片段仍面临边界模糊和过度分割等挑战。为解决这些问题,本文提出一种新型的边界感知级联网络,引入两个创新组件。首先,我们设计了一种新的级联范式——阶段级联(Stage Cascade),使模型能够具备自适应的感受野,从而对边界模糊的帧做出更具置信度的预测。其次,我们提出一种通用且具有理论依据的平滑操作——局部障碍池化(local barrier pooling),通过利用语义边界信息来聚合局部预测结果。此外,这两个组件可实现端到端的联合微调。我们在三个具有挑战性的数据集(50Salads、GTEA 和 Breakfast)上进行了实验,结果表明,所提出的框架显著优于当前最先进的方法。代码已开源,地址为:https://github.com/MCG-NJU/BCN。

基准测试

基准方法指标
action-segmentation-on-50-salads-1BCN
Acc: 84.4
Edit: 74.3
F1@10%: 82.3
F1@25%: 81.3
F1@50%: 74
action-segmentation-on-breakfast-1BCN
Acc: 70.4
Average F1: 63.1
Edit: 66.2
F1@10%: 68.7
F1@25%: 65.5
F1@50%: 55.0
action-segmentation-on-gtea-1BCN
Acc: 79.8
Edit: 84.4
F1@10%: 88.5
F1@25%: 87.1
F1@50%: 77.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
边界感知的级联网络用于时间动作分割 | 论文 | HyperAI超神经