6 个月前

摘要

动作分类任务已取得显著进展，但从长时未剪辑视频中进行动作分割与识别仍是极具挑战性的问题。当前大多数先进方法聚焦于设计基于时间卷积的模型，然而时间卷积固有的灵活性不足以及在建模长时序依赖关系方面的困难，限制了此类模型的潜力。近年来，具备可适应性与序列建模能力的基于Transformer的模型已被广泛应用于各类任务。然而，Transformer缺乏归纳偏置（inductive bias）且在处理长视频序列时效率较低，制约了其在动作分割任务中的应用。本文提出一种完全基于Transformer架构、摒弃时间卷积的新型模型——时序U-Transformer（Temporal U-Transformer, TUT）。该模型通过引入时序采样机制，在降低计算复杂度的同时，融入了一种归纳偏置：相邻帧更可能属于同一动作类别。然而，粗粒度分辨率的引入会导致动作边界区域的分类不准确。我们观察到，边界帧与其邻近帧之间的相似性分布，取决于该边界帧是动作片段的起始点还是终止点。基于此，我们进一步提出一种边界感知损失函数（boundary-aware loss），该损失函数利用注意力模块中帧间相似性得分的分布特性，以增强模型对动作边界的识别能力。大量实验结果表明，所提模型在动作分割任务上具有显著的有效性与优越性能。