
摘要
时间动作分割在理解长视频内容方面具有重要意义。以往该任务的研究多采用多阶段模型的迭代精炼范式。本文提出一种基于去噪扩散模型的新型框架,尽管采用生成式建模方法,但仍继承了迭代精炼的核心思想。在该框架中,动作预测通过从随机噪声出发,以输入视频特征作为条件,逐步迭代生成。为更好地建模人类动作的三大显著特性——位置先验、边界模糊性以及动作间的依赖关系,我们设计了一种统一的掩码策略,用于框架中的条件输入。在三个基准数据集(GTEA、50Salads 和 Breakfast)上的大量实验表明,所提方法在性能上优于或至少可与当前最优方法相媲美,充分验证了生成式方法在动作分割任务中的有效性。
代码仓库
finspire13/diffact
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-50-salads-1 | DiffAct | Acc: 88.9 Edit: 85.0 F1@10%: 90.1 F1@25%: 89.2 F1@50%: 83.7 |
| action-segmentation-on-breakfast-1 | DiffAct | Acc: 76.4 Average F1: 73.6 Edit: 78.4 F1@10%: 80.3 F1@25%: 75.9 F1@50%: 64.6 |
| action-segmentation-on-gtea-1 | DiffAct | Acc: 82.2 Edit: 89.6 F1@10%: 92.5 F1@25%: 91.5 F1@50%: 84.7 |