
摘要
人体-物体交互(Human-Object Interaction, HOI)检测任务旨在识别图像中的一组交互关系,其核心包括两个方面:一是准确定位交互中的主体(即人)和客体(即物体),二是对交互类别进行分类。现有的大多数方法通过先分别检测人体和物体实例,再逐一推断所有检测到的实例对之间的交互关系,从而间接完成该任务。本文提出一种新颖的框架——HOTR,该框架基于Transformer编码器-解码器架构,能够直接从图像中预测一组“<人, 物体, 交互>”三元组。通过集合预测机制,该方法有效利用了图像中固有的语义关联信息,无需耗时的后处理步骤,从而克服了现有方法的主要瓶颈。实验结果表明,所提出的算法在两个主流HOI检测基准上均取得了当前最优性能,且在完成物体检测后,单张图像的推理时间低于1毫秒。
代码仓库
kakaobrain/HOTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico | HOTR | mAP: 23.46 |
| human-object-interaction-detection-on-v-coco | HOTR | AP(S1): 55.2 AP(S2): 64.4 |