7 个月前

摘要

近年来，从第一人称视角视频中理解手与物体之间的交互关系受到了广泛关注。迄今为止，大多数方法均基于卷积神经网络（CNN）提取的特征，并结合长短期记忆网络（LSTM）或图卷积网络（GCN）进行时序建模，以实现对双手、物体及其交互关系的统一建模。本文提出了一种基于Transformer的统一框架，旨在更精准地理解双手操作物体的过程。在该框架中，我们将完整图像（包含双手、物体及其交互关系）作为输入，从每一帧中联合估计三类信息：双手的姿态、物体的姿态以及物体类别。随后，基于所估计的时空信息与编码双手与物体之间交互关系的接触图（contact map），对整段视频的动作类别进行预测。我们在H2O和FPHA两个基准数据集上进行了实验，结果表明，所提方法在性能上达到了当前最优水平。消融实验进一步验证了所提出各模块的有效性。

源 PDF 查看代码