
摘要
我们提出了一种简单、直观且强大的人类-物体交互(Human-Object Interaction, HOI)检测方法。由于图像中HOI在空间分布上的多样性,现有的基于卷积神经网络(CNN)的方法面临以下三个主要缺点:它们无法利用图像全局特征,因为CNN具有局部性;它们依赖于手动定义的兴趣区域进行特征聚合,这有时无法覆盖上下文中重要的区域;当多个HOI实例位置接近时,它们无法避免特征混淆。为了解决这些缺点,我们提出了一种基于变压器(Transformer)的特征提取器,在该提取器中,注意力机制和基于查询的检测起着关键作用。注意力机制在聚合图像全局的上下文重要信息方面非常有效,而我们设计的每个查询最多捕获一个人员-物体对,从而可以避免来自多个实例的特征混淆。这种基于变压器的特征提取器生成了非常有效的嵌入向量,使得后续的检测头可以相对简单和直观。广泛的分析表明,所提出的方法成功地提取了上下文中的重要特征,因此在HICO-DET数据集上比现有方法提高了5.37个mAP,在V-COCO数据集上提高了5.7个mAP。源代码可在$\href{https://github.com/hitachi-rd-cv/qpic}{\text{此链接}}$获取。
代码仓库
hitachi-rd-cv/qpic
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-concept-discovery-on | Qpic | Unknown (AP): 27.42 |
| human-object-interaction-detection-on-hico | QPIC (ResNet50) | Time Per Frame (ms): 46 mAP: 29.07 |
| human-object-interaction-detection-on-hico | QPIC (ResNet101) | Time Per Frame (ms): 63 mAP: 29.90 |
| human-object-interaction-detection-on-v-coco | QPIC (ResNet101) | AP(S1): 58.3 AP(S2): 60.7 Time Per Frame(ms): 63 |
| human-object-interaction-detection-on-v-coco | QPIC (ResNet50) | AP(S1): 58.8 AP(S2): 61.0 Time Per Frame(ms): 46 |