6 个月前

摘要

动作识别对于第一人称视角视频理解至关重要，能够实现对日常生活活动（ADLs）的自动、连续监测，且无需用户额外操作。现有研究主要聚焦于三维手部姿态输入，但此类方法通常依赖计算开销较大的深度估计网络，或需佩戴令人不适的深度传感器。相比之下，尽管市场上已有可捕捉单张RGB图像的友好型智能眼镜，针对第一人称视角动作识别中二维手部姿态的理解仍缺乏充分研究。本研究旨在填补这一空白，探索基于二维手部姿态估计的第一人称动作识别方法，并做出两项贡献。首先，我们提出了两种新颖的二维手部姿态估计方法：EffHandNet，用于单手姿态估计；以及专为第一人称视角设计的EffHandEgoNet，能够有效捕捉手与物体之间的交互关系。两种方法在H2O与FPHA公开基准数据集上的表现均优于现有最先进模型。其次，我们提出了一种基于二维手部与物体姿态的鲁棒动作识别架构。该方法融合了EffHandEgoNet与基于Transformer的动作识别模块。在H2O与FPHA数据集上的评估结果表明，该架构不仅推理速度更快，且分别取得了91.32%和94.43%的准确率，超越了当前最先进水平，包括基于三维信息的方法。本研究证明，利用二维骨骼数据是实现第一人称视角动作理解的一种高效且可靠的途径。通过广泛的实验验证与消融分析，我们进一步揭示了手部姿态估计方法对整体性能的影响，以及各类输入对模型表现的具体贡献。

源 PDF