4 个月前

MECCANO数据集:从工业领域类的第一人称视频中理解人-物交互

MECCANO数据集:从工业领域类的第一人称视频中理解人-物交互

摘要

可穿戴相机能够收集人类与世界互动的图像和视频。尽管第三人称视角下的人与物体交互已经得到了深入研究,但在第一人称视角(即以佩戴者为中心的视角)以及工业场景中,这一问题的研究相对较少。为了填补这一空白,我们引入了MECCANO数据集,这是首个用于研究工业类场景中人与物体交互的第一人称视频数据集。MECCANO数据集由20名参与者采集,他们被要求组装一个摩托车模型,在此过程中需要与微小的物体和工具进行互动。该数据集专门针对从第一人称视角识别人类与物体交互的任务进行了标注。具体而言,每个交互动作都从时间和空间两个维度进行了标注(时间上标注为动作片段,空间上标注为活动物体的边界框)。利用所提出的MECCANO数据集,我们探讨了四个不同的任务,包括1)动作识别,2)活动物体检测,3)活动物体识别和4)第一人称人与物体交互检测,后者是对标准的人与物体交互检测任务的一种重新诠释。基线结果显示,MECCANO数据集是一个具有挑战性的基准测试平台,用于研究类似工业环境中的第一人称人与物体交互。我们已公开发布该数据集,网址为https://iplab.dmi.unict.it/MECCANO。

代码仓库

fpv-iplab/MECCANO
官方
pytorch

基准测试

基准方法指标
action-recognition-on-meccanoSlowFast
Top-1 Accuracy: 42.85
human-object-interaction-detection-on-meccanoSlowFast + FasterRCNN
mAP@0.5 role: 25.93
object-recognition-on-meccanoFaster-RCNN
mAP: 30.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MECCANO数据集:从工业领域类的第一人称视频中理解人-物交互 | 论文 | HyperAI超神经