3 个月前

我们真的需要在动作分割中使用时间卷积吗?

我们真的需要在动作分割中使用时间卷积吗?

摘要

动作分类任务已取得显著进展,但从长时未剪辑视频中进行动作分割与识别仍是极具挑战性的问题。当前大多数先进方法聚焦于设计基于时间卷积的模型,然而时间卷积固有的灵活性不足以及在建模长时序依赖关系方面的困难,限制了此类模型的潜力。近年来,具备可适应性与序列建模能力的基于Transformer的模型已被广泛应用于各类任务。然而,Transformer缺乏归纳偏置(inductive bias)且在处理长视频序列时效率较低,制约了其在动作分割任务中的应用。本文提出一种完全基于Transformer架构、摒弃时间卷积的新型模型——时序U-Transformer(Temporal U-Transformer, TUT)。该模型通过引入时序采样机制,在降低计算复杂度的同时,融入了一种归纳偏置:相邻帧更可能属于同一动作类别。然而,粗粒度分辨率的引入会导致动作边界区域的分类不准确。我们观察到,边界帧与其邻近帧之间的相似性分布,取决于该边界帧是动作片段的起始点还是终止点。基于此,我们进一步提出一种边界感知损失函数(boundary-aware loss),该损失函数利用注意力模块中帧间相似性得分的分布特性,以增强模型对动作边界的识别能力。大量实验结果表明,所提模型在动作分割任务上具有显著的有效性与优越性能。

代码仓库

ddz16/TUT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-50-salads-1EUT
Acc: 87.4
Edit: 82.9
F1@10%: 89.2
F1@25%: 87.5
F1@50%: 81
action-segmentation-on-50saladsEUT
Acc: 87.4
Edit: 82.9
F1@10%: 89.2
F1@25%: 87.5
F1@50%: 81
action-segmentation-on-breakfast-1EUT
Acc: 75
Average F1: 69.3
Edit: 74.6
F1@10%: 76.2
F1@25%: 71.8
F1@50%: 59.8
action-segmentation-on-gtea-1EUT
Acc: 77
Edit: 83.9
F1@10%: 88.2
F1@25%: 87.2
F1@50%: 74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
我们真的需要在动作分割中使用时间卷积吗? | 论文 | HyperAI超神经