3 个月前

扩散动作分割

扩散动作分割

摘要

时间动作分割在理解长视频内容方面具有重要意义。以往该任务的研究多采用多阶段模型的迭代精炼范式。本文提出一种基于去噪扩散模型的新型框架,尽管采用生成式建模方法,但仍继承了迭代精炼的核心思想。在该框架中,动作预测通过从随机噪声出发,以输入视频特征作为条件,逐步迭代生成。为更好地建模人类动作的三大显著特性——位置先验、边界模糊性以及动作间的依赖关系,我们设计了一种统一的掩码策略,用于框架中的条件输入。在三个基准数据集(GTEA、50Salads 和 Breakfast)上的大量实验表明,所提方法在性能上优于或至少可与当前最优方法相媲美,充分验证了生成式方法在动作分割任务中的有效性。

代码仓库

finspire13/diffact
pytorch
GitHub 中提及

基准测试

基准方法指标
action-segmentation-on-50-salads-1DiffAct
Acc: 88.9
Edit: 85.0
F1@10%: 90.1
F1@25%: 89.2
F1@50%: 83.7
action-segmentation-on-breakfast-1DiffAct
Acc: 76.4
Average F1: 73.6
Edit: 78.4
F1@10%: 80.3
F1@25%: 75.9
F1@50%: 64.6
action-segmentation-on-gtea-1DiffAct
Acc: 82.2
Edit: 89.6
F1@10%: 92.5
F1@25%: 91.5
F1@50%: 84.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
扩散动作分割 | 论文 | HyperAI超神经