3 个月前

机器人视觉与多视角协同:辅助生活场景中的动作与活动识别

机器人视觉与多视角协同:辅助生活场景中的动作与活动识别

摘要

在以人为中心的场景中整合机器人技术时,人机交互(Human-Robot Interaction, HRI)的重要性日益凸显。有效HRI的关键组成部分之一是人体活动识别(Human Activity Recognition, HAR),该技术使机器人能够在人类存在时做出恰当响应,尤其在智能家居辅助生活(Ambient Assisted Living, AAL)环境中具有重要意义。由于机器人通常具备移动性,其视觉感知常受运动模糊和噪声干扰,本文提出一种融合机器人移动视角与静态视角的多视角深度学习方法,以提升视觉感知下的HAR性能。为此,本文引入一种双流三维卷积(Dual-Stream Convolutional 3D, C3D)模型,旨在提高机器人应用中的基于视觉的HAR准确率。基于包含机器人视角及三个静态视角(前视、后视、顶视)的Robot House Multiview(RHM)数据集,我们评估了所提模型的性能,并与双流卷积神经网络(ConvNet)及Slow-Fast模型进行了对比分析。本研究的核心目标是通过双流模型融合机器人视角与静态视角,提升机器人视角下的HAR识别准确率。评估指标包括Top-1准确率和Top-5准确率。实验结果表明,将静态视角与机器人视角融合后,所有测试模型在Top-1和Top-5准确率上均显著提升。此外,所提出的双流C3D模型在各项评估中均优于其他现有主流模型,展现出更优的性能表现。

基准测试

基准方法指标
human-activity-recognition-on-rhmDual-Stream C3D
Accuracy (Top-1): 71.06
human-activity-recognition-on-rhmSlowFast (101)
Accuracy (Top-1): 45.28
human-activity-recognition-on-rhmDual-Stream ConvNet
Accuracy (Top-1): 62.77

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
机器人视觉与多视角协同:辅助生活场景中的动作与活动识别 | 论文 | HyperAI超神经