
摘要
细粒度动作分割与识别是一项重要而具有挑战性的任务。给定一段长且未修剪的运动学数据序列,该任务的目标是对每个时间帧的动作进行分类,并将时间序列分割成正确的动作序列。在本文中,我们提出了一种新颖的框架,该框架结合了时间条件随机场(CRF)模型和基于判别稀疏编码的强大帧级表示方法。我们引入了一种端到端算法,用于联合学习CRF模型的权重,这些权重包括动作分类和动作转换成本,以及一个包含中层动作基元的过完备字典。这使得CRF模型能够利用通过共享并适应于结构化输出学习任务的判别字典获得的稀疏编码特征。我们在JIGSAWS数据集中的三个手术任务上使用运动学数据评估了我们的方法,并在50 Salads数据集中使用加速度计数据对食物准备任务进行了评估。实验结果表明,所提出的方法在性能上与现有最先进方法相当或更优。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-jigsaws | SDL+SC-CRF | Edit Distance: 86.21 |