
摘要
本文研究短期动作预测问题,即在动作发生前一秒预测其内容。我们提出利用高层次意图信息来预判未来将发生的动作。为此,我们在模型中引入了一个额外的目标预测分支,并设计了一种一致性损失函数,以促使预测的动作与视频中所追求的高层目标保持一致。实验结果表明,所提出方法具有显著有效性,并在两个大规模数据集——Assembly101和COIN上取得了当前最优的性能表现。
代码仓库
olga-zats/goal_consistency
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-assembly101 | Goal Consistency | Actions Recall@5: 12.07 Objects Recall@5: 28.38 Verbs Recall@5: 60.04 |