PunnakkalAbhinanda R. ; ChandrasekaranArjun ; AthanasiouNikos ; Quiros-RamirezAlejandra ; BlackMichael J.

摘要
理解人类运动的语义——即运动的“什么”、“如何”和“为什么”——是一个重要的问题,需要包含语义标签的人类动作数据集。现有的数据集采用了两种方法之一。大规模视频数据集包含许多动作标签,但缺乏真实3D人体运动数据。相反,动作捕捉(mocap)数据集具有精确的身体运动数据,但仅限于少数几种动作。为了解决这一问题,我们介绍了BABEL,这是一个大型的数据集,其中包含了描述AMASS中约43小时的动作捕捉序列所执行动作的语言标签。BABEL中的动作标签分为两个抽象层次——序列标签描述了整个序列中的总体动作,而帧标签则描述了序列中每一帧的所有动作。每个帧标签都与相应动作在动作捕捉序列中的持续时间精确对齐,并且多个动作可以重叠。BABEL包含超过28,000个序列标签和63,000个帧标签,这些标签属于超过250种独特的动作类别。BABEL中的标签可以用于诸如动作识别、时间动作定位、运动合成等任务。为了展示BABEL作为基准的价值,我们评估了模型在3D动作识别任务上的性能。我们证明了BABEL提出了适用于现实场景的有趣学习挑战,并且可以作为3D动作识别进展的一个有用基准。该数据集、基线方法和评估代码已公开提供,并支持学术研究用途,网址为https://babel.is.tue.mpg.de/。
代码仓库
abhinanda-punnakkal/BABEL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-babel | 2s-AGCN | CE Top-1: 44.87 CE Top-1-norm: 17.16 CE Top-5: 71.78 |