3 个月前

ViPLO:基于视觉Transformer的姿态条件自循环图的人-物交互检测

ViPLO:基于视觉Transformer的姿态条件自循环图的人-物交互检测

摘要

人体-物体交互(Human-Object Interaction, HOI)检测旨在定位人体与物体并推断二者之间的关系,在场景理解中具有重要作用。尽管两阶段HOI检测器在训练与推理效率方面具有一定优势,但由于其采用较旧的骨干网络,且在交互分类器中未能充分考虑人类在交互过程中的感知机制,导致其性能低于单阶段方法。针对上述问题,本文提出一种基于视觉Transformer的姿势条件自循环图网络(Vision Transformer-based Pose-Conditioned Self-Loop Graph, ViPLO)。首先,我们设计了一种适用于视觉Transformer骨干网络的新型特征提取方法,称为“重叠区域掩码”(Masking with Overlapped Area, MOA)模块。该模块在注意力机制中利用每个图像块与目标区域之间的重叠区域,有效缓解了使用视觉Transformer骨干网络时存在的量化问题。此外,我们构建了一种具有姿势条件自循环结构的图网络,通过人体关节的局部特征动态更新人体节点的编码表示。该设计模拟了人类在识别交互行为时对特定关节的关注机制,从而提升分类器对交互类型判别的准确性。实验结果表明,ViPLO在两个公开基准数据集上均取得了当前最优性能,尤其在HICO-DET数据集上实现了+2.07 mAP的显著提升。相关源代码已开源,地址为:https://github.com/Jeeseung-Park/ViPLO。

代码仓库

jeeseung-park/viplo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoViPLO
mAP: 37.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViPLO:基于视觉Transformer的姿态条件自循环图的人-物交互检测 | 论文 | HyperAI超神经