
摘要
可穿戴相机能够收集人类与世界互动的图像和视频。尽管第三人称视角下的人与物体交互已经得到了深入研究,但在第一人称视角(即以佩戴者为中心的视角)以及工业场景中,这一问题的研究相对较少。为了填补这一空白,我们引入了MECCANO数据集,这是首个用于研究工业类场景中人与物体交互的第一人称视频数据集。MECCANO数据集由20名参与者采集,他们被要求组装一个摩托车模型,在此过程中需要与微小的物体和工具进行互动。该数据集专门针对从第一人称视角识别人类与物体交互的任务进行了标注。具体而言,每个交互动作都从时间和空间两个维度进行了标注(时间上标注为动作片段,空间上标注为活动物体的边界框)。利用所提出的MECCANO数据集,我们探讨了四个不同的任务,包括1)动作识别,2)活动物体检测,3)活动物体识别和4)第一人称人与物体交互检测,后者是对标准的人与物体交互检测任务的一种重新诠释。基线结果显示,MECCANO数据集是一个具有挑战性的基准测试平台,用于研究类似工业环境中的第一人称人与物体交互。我们已公开发布该数据集,网址为https://iplab.dmi.unict.it/MECCANO。
代码仓库
fpv-iplab/MECCANO
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-on-meccano | SlowFast | Top-1 Accuracy: 42.85 |
| human-object-interaction-detection-on-meccano | SlowFast + FasterRCNN | mAP@0.5 role: 25.93 |
| object-recognition-on-meccano | Faster-RCNN | mAP: 30.39 |