3 个月前

基于分层视频表征的行动分割优化

基于分层视频表征的行动分割优化

摘要

本文提出了一种分层动作分割优化模型——Hierarchical Action Segmentation Refiner(HASR),该模型通过分层方式理解给定视频的整体上下文,对来自不同模型的时序动作分割结果进行精细化优化。当主干分割模型估计视频的分割方式时,我们的模型首先基于帧级特征提取片段级表示,并进一步基于这些片段级表示构建视频级表示。依托这一分层表示结构,HASR能够参考整个视频的全局上下文信息,从而预测并修正那些上下文不一致的片段标签。HASR可无缝集成至多种动作分割模型(如MS-TCN、SSTDA、ASRF)中,并在三个具有挑战性的数据集(GTEA、50Salads 和 Breakfast)上显著提升当前最先进模型的性能。例如,在50Salads数据集上,段级编辑得分分别从MS-TCN的67.9%提升至77.4%,从SSTDA的75.8%提升至77.3%,从ASRF的79.3%提升至81.0%。此外,该模型还具备对未见主干模型(即训练阶段未参与的模型)的分割结果进行优化的能力,展现出优异的泛化性能。这一特性使HASR成为提升现有时序动作分割方法性能的有效工具。相关代码已公开,地址为:https://github.com/cotton-ahn/HASR_iccv2021。

基准测试

基准方法指标
action-segmentation-on-50-salads-1ASRF + HASR
Acc: 83.9
Edit: 81.0
F1@10%: 86.6
F1@25%: 85.7
F1@50%: 78.5
action-segmentation-on-breakfast-1ASRF + HASR
Acc: 69.4
Average F1: 67.1
Edit: 71.9
F1@10%: 74.7
F1@25%: 69.5
F1@50%: 57.0
action-segmentation-on-gtea-1ASRF + HASR
Acc: 76.9
Edit: 84.5
F1@10%: 89.2
F1@25%: 87.2
F1@50%: 74.8
action-segmentation-on-gtea-1SSTDA + HASR
Acc: 78.7
Edit: 87.5
F1@10%: 90.9
F1@25%: 88.6
F1@50%: 76.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于分层视频表征的行动分割优化 | 论文 | HyperAI超神经