4 个月前

基于骨架的交互行为识别中的时空令牌注意力网络

基于骨架的交互行为识别中的时空令牌注意力网络

摘要

识别交互行为在人机交互和协作中发挥着重要作用。以往的方法通过使用后期融合和共同注意机制来捕捉交互关系,但这些方法的学习能力有限或难以适应更多的交互实体。假设每个实体的先验知识已经知晓的情况下,这些方法也缺乏对更加普遍的场景进行评估,以应对主体的多样性。为了解决这些问题,我们提出了一种交互时空标记注意力网络(Interactive Spatiotemporal Token Attention Network, ISTA-Net),该网络能够同时建模空间、时间和交互关系。具体而言,我们的网络包含一个分词器,用于划分交互时空标记(Interactive Spatiotemporal Tokens, ISTs),这是一种统一表示多个不同实体运动的方式。通过扩展实体维度,ISTs 提供了更好的交互表示。为了在 ISTs 的三个维度上联合学习,设计了多头自注意力块与三维卷积相结合的方法来捕捉标记之间的相关性。在建模相关性时,严格的实体顺序通常对于识别交互行为并不重要。为此,我们提出了实体重排(Entity Rearrangement)技术,以消除 ISTs 中可互换实体的有序性。我们在四个数据集上进行了广泛的实验,验证了 ISTA-Net 的有效性,并且其性能超过了现有的最先进方法。我们的代码已公开发布在 https://github.com/Necolizer/ISTA-Net

代码仓库

Necolizer/ISTA-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-action-recognition-on-assembly101ISTA-Net
Actions Top-1: 28.07
Object Top-1: 31.69
Verbs Top-1: 62.66
action-recognition-on-h2o-2-hands-and-objectsISTA-Net
Actions Top-1: 89.09
Hand Pose: 3D
Object Label: No
Object Pose: Yes
RGB: No
human-interaction-recognition-on-ntu-rgb-d-1ISTA-Net
Accuracy (Cross-Setup): 91.7
Accuracy (Cross-Subject): 90.5
human-interaction-recognition-on-sbuISTA-Net
Accuracy: 98.51±1.47
skeleton-based-action-recognition-on-h2o-2ISTA-Net
Accuracy: 89.09±1.21

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于骨架的交互行为识别中的时空令牌注意力网络 | 论文 | HyperAI超神经