
摘要
评估动作质量具有挑战性,因为视频之间的细微差异和评分的大幅波动。现有的大多数方法通过从单个视频中回归一个质量分数来解决这一问题,但这种方法在应对视频间评分的大幅波动时存在较大困难。本文表明,在训练和推理过程中,视频之间的关系可以为更准确的动作质量评估提供重要线索。具体而言,我们将动作质量评估问题重新表述为相对于另一个具有共享属性(例如类别和难度)的视频进行相对评分的回归,而不是学习无参考的评分。基于这种表述,我们提出了一种新的对比回归(Contrastive Regression, CoRe)框架,通过成对比较学习相对评分,这突出了视频之间的差异,并引导模型学习评估的关键线索。为了进一步利用两个视频之间的相对信息,我们设计了一个群体感知回归树,将传统的评分回归转化为两个较为简单的子问题:粗到细分类和小区间内的回归。为了证明CoRe的有效性,我们在三个主流AQA数据集上进行了广泛的实验,包括AQA-7、MTL-AQA和JIGSAWS。我们的方法在所有三个基准测试中均大幅超越了以往的方法,并建立了新的最先进水平。
代码仓库
yuxumin/CoRe
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-quality-assessment-on-aqa-7 | I3D+MLP | RL2(*100): 3.20 Spearman Correlation: 76.01% |
| action-quality-assessment-on-aqa-7 | CoRe | RL2(*100): 2.12 Spearman Correlation: 84.01% |
| action-quality-assessment-on-mtl-aqa | CoRe | RL2(*100): 0.365 Spearman Correlation: 93.41 |
| action-quality-assessment-on-mtl-aqa | CoRe(w/ DD) | RL2(*100): 0.260 Spearman Correlation: 95.12 |
| action-quality-assessment-on-mtl-aqa | I3D+MLP(w/ DD) | RL2(*100): 0.394 Spearman Correlation: 93.81 |
| action-quality-assessment-on-mtl-aqa | I3D+MLP | RL2(*100): 0.465 Spearman Correlation: 91.96 |