3 个月前

基于Transformer的双手操作物体统一识别

基于Transformer的双手操作物体统一识别

摘要

近年来,从第一人称视角视频中理解手与物体之间的交互关系受到了广泛关注。迄今为止,大多数方法均基于卷积神经网络(CNN)提取的特征,并结合长短期记忆网络(LSTM)或图卷积网络(GCN)进行时序建模,以实现对双手、物体及其交互关系的统一建模。本文提出了一种基于Transformer的统一框架,旨在更精准地理解双手操作物体的过程。在该框架中,我们将完整图像(包含双手、物体及其交互关系)作为输入,从每一帧中联合估计三类信息:双手的姿态、物体的姿态以及物体类别。随后,基于所估计的时空信息与编码双手与物体之间交互关系的接触图(contact map),对整段视频的动作类别进行预测。我们在H2O和FPHA两个基准数据集上进行了实验,结果表明,所提方法在性能上达到了当前最优水平。消融实验进一步验证了所提出各模块的有效性。

基准测试

基准方法指标
action-recognition-on-h2o-2-hands-and-objectsH2OTR
Actions Top-1: 90.90
Hand Pose: 3D (est.)
Object Label: Yes (est.)
Object Pose: Yes (est.)
RGB: Yes

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的双手操作物体统一识别 | 论文 | HyperAI超神经