3 个月前

HOTR:基于Transformer的端到端人-物体交互检测

HOTR:基于Transformer的端到端人-物体交互检测

摘要

人体-物体交互(Human-Object Interaction, HOI)检测任务旨在识别图像中的一组交互关系,其核心包括两个方面:一是准确定位交互中的主体(即人)和客体(即物体),二是对交互类别进行分类。现有的大多数方法通过先分别检测人体和物体实例,再逐一推断所有检测到的实例对之间的交互关系,从而间接完成该任务。本文提出一种新颖的框架——HOTR,该框架基于Transformer编码器-解码器架构,能够直接从图像中预测一组“<人, 物体, 交互>”三元组。通过集合预测机制,该方法有效利用了图像中固有的语义关联信息,无需耗时的后处理步骤,从而克服了现有方法的主要瓶颈。实验结果表明,所提出的算法在两个主流HOI检测基准上均取得了当前最优性能,且在完成物体检测后,单张图像的推理时间低于1毫秒。

代码仓库

kakaobrain/HOTR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoHOTR
mAP: 23.46
human-object-interaction-detection-on-v-cocoHOTR
AP(S1): 55.2
AP(S2): 64.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HOTR:基于Transformer的端到端人-物体交互检测 | 论文 | HyperAI超神经