
摘要
人类行为预测本质上是一个充满不确定性的任务。然而,如果我们能够了解行为执行者试图达成的目标,便可以在一定程度上降低这种不确定性。本文提出一种行为预测模型,通过利用目标信息来减少未来行为预测中的不确定性。由于在推理阶段我们无法直接获取目标信息或已观测到的行为,因此我们转而采用视觉表征来整合关于行为与目标的双重信息。基于此,我们引入了一个新颖的概念——抽象目标(abstract goal),该概念基于观测到的视觉特征序列,用于指导行为预测。我们将抽象目标建模为一个概率分布,其参数通过变分循环网络(variational recurrent network)进行估计。随后,我们对下一个行为生成多个候选动作,并引入一种目标一致性度量(goal consistency measure),以筛选出最符合抽象目标的最优候选动作。在极具挑战性的Epic-Kitchens55(EK55)、EK100以及EGTEA Gaze+数据集上,本方法取得了显著的性能提升。在EK55数据集的“已见厨房”(S1)设置下,相较于先前的最先进方法,本方法在Top-1动词、Top-1名词和Top-1行为预测准确率上分别实现了+13.69、+11.24和+5.19的绝对性能提升。在“未见厨房”(S2)设置下,同样取得了显著改进,Top-1动词、名词和行为预测准确率分别提升+10.75、+5.84和+2.87。在EGTEA Gaze+数据集上也呈现出相似的趋势,名词、动词和行为预测的准确率分别获得+9.9、+13.1和+6.8的绝对提升。本方法已提交至相关竞赛平台,目前在EK55和EGTEA Gaze+数据集上的行为预测任务中已达到新的最先进水平(state-of-the-art)。相关代码已开源,地址为:https://github.com/debadityaroy/Abstract_Goal。更多结果详见竞赛页面:https://competitions.codalab.org/competitions/20071#results。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-egtea | Abstract Goal | Top-1 Accuracy: 49.8 |
| action-anticipation-on-epic-kitchens-100-test | Abstract Goal | recall@5: 14.29 |
| action-anticipation-on-epic-kitchens-55-1 | Abstract Goal | Top 1 Accuracy - Act.: 13.28 Top 1 Accuracy - Noun: 22.36 Top 1 Accuracy - Verb: 41.41 Top 5 Accuracy - Act.: 24.24 Top 5 Accuracy - Noun: 41.62 Top 5 Accuracy - Verb: 73.10 |
| action-anticipation-on-epic-kitchens-55-seen | Abstract Goal | Top 1 Accuracy - Act.: 22.03 Top 1 Accuracy - Noun: 51.56 Top 1 Accuracy - Verb: 35.34 Top 5 Accuracy - Act.: 38.29 Top 5 Accuracy - Noun: 58.01 Top 5 Accuracy - Verb: 82.56 |