
摘要
近期表现优异的人体-物体交互(Human-Object Interaction, HOI)检测技术深受基于Transformer的物体检测器(如DETR)的影响。然而,大多数现有方法在单阶段框架中直接通过标准Transformer将参数化的交互查询映射为一组HOI预测结果,导致丰富的交互间或交互内结构信息未能得到充分挖掘。针对这一问题,本文提出一种新型的基于Transformer架构的HOI检测器——交互提议结构感知Transformer(Structure-aware Transformer over Interaction Proposals, STIP)。该设计将HOI集合的预测过程分解为两个连续阶段:首先生成交互提议(interaction proposals),随后通过结构感知Transformer将非参数化的交互提议转化为最终的HOI预测结果。其中,结构感知Transformer在标准Transformer的基础上,额外编码了交互提议之间的整体语义结构,以及每个交互提议中人体与物体之间的局部空间结构信息,从而有效增强HOI预测的准确性。在V-COCO与HICO-DET两个主流基准上的大量实验结果表明,STIP显著提升了检测性能,其效果优于当前最先进的HOI检测方法。项目源代码已公开,地址为:\url{https://github.com/zyong812/STIP}。
代码仓库
zyong812/stip
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | STIP (ResNet-50) | Time Per Frame (ms): 74 mAP: 32.22 |
| human-object-interaction-detection-on-v-coco | STIP | AP(S1): 66.0 AP(S2): 70.7 Time Per Frame(ms): 74 |