3 个月前

DIRV:用于端到端人-物体交互检测的密集交互区域投票

DIRV:用于端到端人-物体交互检测的密集交互区域投票

摘要

近年来,人-物体交互(Human-Object Interaction, HOI)检测取得了显著进展。然而,传统的两阶段方法在推理速度上通常较为缓慢。另一方面,现有的单阶段方法主要关注交互区域的并集(union regions),这会引入不必要的视觉信息,成为HOI检测的干扰因素。针对上述问题,本文提出了一种新型的单阶段HOI检测方法——DIRV(Dense Interaction Region Voting),其基于一个全新的概念:交互区域(Interaction Region)。与以往方法不同,我们的方法聚焦于对每一对人-物体在多尺度下进行密集采样的交互区域,从而捕捉对交互最为关键的细微视觉特征。此外,为弥补单一交互区域检测的不足,我们引入了一种新颖的投票机制,充分利用重叠的交互区域,替代传统的非极大值抑制(Non-Maximum Suppression, NMS)策略,有效提升检测精度。在两个主流基准数据集V-COCO和HICO-DET上的大量实验表明,所提方法在保持最高推理速度的同时,拥有最轻量级的网络结构,并显著超越现有最先进方法。在不使用额外输入的情况下,我们在V-COCO数据集上达到了56.1 mAP的性能。相关代码已公开,地址为:https://github.com/MVIG-SJTU/DIRV。

代码仓库

MVIG-SJTU/DIRV
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoDIRV
Time Per Frame (ms): 68
mAP: 21.81
human-object-interaction-detection-on-v-cocoDIRV
AP(S1): 56.1
Time Per Frame(ms): 68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DIRV:用于端到端人-物体交互检测的密集交互区域投票 | 论文 | HyperAI超神经