8 个月前

多任务学习

计算机视觉

Francesco Ragusa Antonino Furnari Salvatore Livatino Giovanni Maria Farinella

摘要

可穿戴相机能够收集人类与世界互动的图像和视频。尽管第三人称视角下的人与物体交互已经得到了深入研究，但在第一人称视角（即以佩戴者为中心的视角）以及工业场景中，这一问题的研究相对较少。为了填补这一空白，我们引入了MECCANO数据集，这是首个用于研究工业类场景中人与物体交互的第一人称视频数据集。MECCANO数据集由20名参与者采集，他们被要求组装一个摩托车模型，在此过程中需要与微小的物体和工具进行互动。该数据集专门针对从第一人称视角识别人类与物体交互的任务进行了标注。具体而言，每个交互动作都从时间和空间两个维度进行了标注（时间上标注为动作片段，空间上标注为活动物体的边界框）。利用所提出的MECCANO数据集，我们探讨了四个不同的任务，包括1）动作识别，2）活动物体检测，3）活动物体识别和4）第一人称人与物体交互检测，后者是对标准的人与物体交互检测任务的一种重新诠释。基线结果显示，MECCANO数据集是一个具有挑战性的基准测试平台，用于研究类似工业环境中的第一人称人与物体交互。我们已公开发布该数据集，网址为https://iplab.dmi.unict.it/MECCANO。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Francesco Ragusa Antonino Furnari Salvatore Livatino Giovanni Maria Farinella

摘要

可穿戴相机能够收集人类与世界互动的图像和视频。尽管第三人称视角下的人与物体交互已经得到了深入研究，但在第一人称视角（即以佩戴者为中心的视角）以及工业场景中，这一问题的研究相对较少。为了填补这一空白，我们引入了MECCANO数据集，这是首个用于研究工业类场景中人与物体交互的第一人称视频数据集。MECCANO数据集由20名参与者采集，他们被要求组装一个摩托车模型，在此过程中需要与微小的物体和工具进行互动。该数据集专门针对从第一人称视角识别人类与物体交互的任务进行了标注。具体而言，每个交互动作都从时间和空间两个维度进行了标注（时间上标注为动作片段，空间上标注为活动物体的边界框）。利用所提出的MECCANO数据集，我们探讨了四个不同的任务，包括1）动作识别，2）活动物体检测，3）活动物体识别和4）第一人称人与物体交互检测，后者是对标准的人与物体交互检测任务的一种重新诠释。基线结果显示，MECCANO数据集是一个具有挑战性的基准测试平台，用于研究类似工业环境中的第一人称人与物体交互。我们已公开发布该数据集，网址为https://iplab.dmi.unict.it/MECCANO。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MECCANO数据集：从工业领域类的第一人称视频中理解人-物交互 | 论文 | HyperAI超神经