
摘要
与依赖昂贵帧级标注的全监督动作检测任务不同,弱监督动作检测(Weakly Supervised Action Detection, WSAD)仅需视频级标注,因而更适用于实际应用场景。现有WSAD方法通常通过独立评分每个视频片段(即一组连续帧)来检测动作实例。然而,大多数方法未能有效建模视频片段之间的时序关系,难以准确刻画具有潜在时序结构的动作实例。为缓解WSAD中的这一问题,本文提出一种时序结构挖掘(Temporal Structure Mining, TSM)方法。在TSM框架中,每个动作实例被建模为一个多阶段过程,同时利用动作实例内部的阶段演化关系——即时序结构——来增强建模能力。与此同时,视频背景被建模为一个背景阶段,用以在未剪辑视频中区分不同的动作实例。在该框架中,引入阶段滤波器(phase filters)来计算每个片段中各阶段存在的置信度分数。由于WSAD任务中缺乏帧级标注,阶段滤波器无法直接进行监督训练。为此,我们将每个片段的阶段视为隐变量,利用各阶段滤波器输出的片段置信度分数构建一个表格,并通过在该表格中发现最大循环路径(maximal circulant path)来推断隐变量,即确定每个片段所属的阶段。在三个基准数据集上的实验结果表明,所提出的TSM方法在性能上达到了当前最优水平,显著提升了弱监督动作检测的准确性和鲁棒性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | TSM | mAP@0.1:0.7: - mAP@0.5: 24.5 |
| weakly-supervised-action-localization-on-1 | TSM | mAP@0.5: 30.3 |
| weakly-supervised-action-localization-on-2 | TSM | mAP@0.5: 28.3 |