4 个月前

面向整体的交互变换器网络用于动作检测

面向整体的交互变换器网络用于动作检测

摘要

动作是指我们如何与环境互动,包括与其他人员、物体以及自身进行互动。在本文中,我们提出了一种新颖的多模态整体交互变换网络(Holistic Interaction Transformer, HIT),该网络利用了大多数人类动作中至关重要的但常被忽视的手部和姿态信息。所提出的“HIT”网络是一个全面的双模态框架,包含一个RGB流和一个姿态流。每个流分别建模人物、物体和手部的互动。在每个子网络内部,引入了一个模态内聚合模块(Intra-Modality Aggregation, IMA),该模块有选择性地合并各个交互单元。然后,来自每个模态的特征通过一种注意力融合机制(Attentive Fusion Mechanism, AFM)进行结合。最后,我们从时间上下文中提取线索,利用缓存记忆更好地对发生的动作进行分类。我们的方法在J-HMDB、UCF101-24和MultiSports数据集上显著优于先前的方法,并且在AVA数据集上也取得了具有竞争力的结果。代码将在https://github.com/joslefaure/HIT 上提供。

代码仓库

joslefaure/hit
官方
GitHub 中提及

基准测试

基准方法指标
action-detection-on-j-hmdbHIT
Frame-mAP 0.5: 83.8
Video-mAP 0.2: 89.7
Video-mAP 0.5: 88.1
action-detection-on-multisportsHIT
Frame-mAP 0.5: 33.3
Video-mAP 0.2: 27.8
Video-mAP 0.5: 8.8
action-detection-on-ucf101-24HIT
Frame-mAP 0.5: 84.8
Video-mAP 0.2: 88.8
Video-mAP 0.5: 74.3
action-recognition-on-ava-v2-2HIT
mAP: 32.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向整体的交互变换器网络用于动作检测 | 论文 | HyperAI超神经