
摘要
理解人类活动和物体功能是两个非常重要的技能,特别是在个人机器人在人类环境中操作的情况下。在这项工作中,我们考虑了从人类执行的一系列子活动中提取描述性标签的问题,更重要的是,从与这些子活动相关的物体功能中提取标签。给定一个RGB-D视频,我们将人类活动和物体功能共同建模为一个马尔可夫随机场(Markov Random Field, MRF),其中节点表示物体和子活动,边则表示物体功能之间的关系、它们与子活动的关系以及它们随时间的演变。我们使用结构支持向量机(Structural Support Vector Machine, SSVM)方法来构建学习问题,在该方法中,不同时间分割下的标签被视为潜在变量。我们在一个具有挑战性的数据集上测试了我们的方法,该数据集包含从4名受试者处收集的120个活动视频,结果表明,对于物体功能的识别准确率为79.4%,对于子活动的识别准确率为63.4%,对于高层次活动标签的识别准确率为75.0%。随后,我们展示了PR2机器人如何利用这种描述性标签来执行辅助任务。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-cad-120 | KGS | Accuracy: 86.0% |