摘要
动作分割在使机器人自动理解人类行为方面发挥着重要作用。在训练动作识别模型时,虽然为所有帧标注完整动作标签成本较高,但标注时间戳标签以实现弱监督则更具成本效益。然而,现有方法往往未能充分挖掘时间戳标签的潜在信息,导致性能受限。为缓解这一问题,我们在训练阶段提出了一种新颖的学习范式,通过最大化未标注帧周围时间戳动作集合的联合概率,提升模型对动作边界的建模能力。在推理阶段,我们设计了一种新的优化方案,能够从软标签预测中生成更优的硬标签动作类别。尤为重要的是,我们的方法具有模型无关性,可无缝集成至现有框架中。在三个常用的动作分割数据集上,该方法显著优于以往基于时间戳监督的方法,并达到了新的最先进性能。此外,我们的方法仅需不到1%的全监督标签,即可获得与全监督方法相当甚至更优的实验结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-50-salads-1 | AUL | Acc: 77.9 Edit: 77.0 F1@10%: 84.4 F1@25%: 81.3 F1@50%: 67.1 |
| action-segmentation-on-gtea-1 | AUL | Acc: 69.2 Edit: 84.0 F1@10%: 88.2 F1@25%: 85.5 F1@50%: 67.3 |
| weakly-supervised-action-localization-on-gtea | AU-Action | mAP@0.1:0.7: 76.9 mAP@0.5: 66.3 |
| weakly-supervised-action-segmentation | AUL | Acc: 67.3 |