3 个月前

基于交互提议的结构感知Transformer在人-物体交互检测中的探索

基于交互提议的结构感知Transformer在人-物体交互检测中的探索

摘要

近期表现优异的人体-物体交互(Human-Object Interaction, HOI)检测技术深受基于Transformer的物体检测器(如DETR)的影响。然而,大多数现有方法在单阶段框架中直接通过标准Transformer将参数化的交互查询映射为一组HOI预测结果,导致丰富的交互间或交互内结构信息未能得到充分挖掘。针对这一问题,本文提出一种新型的基于Transformer架构的HOI检测器——交互提议结构感知Transformer(Structure-aware Transformer over Interaction Proposals, STIP)。该设计将HOI集合的预测过程分解为两个连续阶段:首先生成交互提议(interaction proposals),随后通过结构感知Transformer将非参数化的交互提议转化为最终的HOI预测结果。其中,结构感知Transformer在标准Transformer的基础上,额外编码了交互提议之间的整体语义结构,以及每个交互提议中人体与物体之间的局部空间结构信息,从而有效增强HOI预测的准确性。在V-COCO与HICO-DET两个主流基准上的大量实验结果表明,STIP显著提升了检测性能,其效果优于当前最先进的HOI检测方法。项目源代码已公开,地址为:\url{https://github.com/zyong812/STIP}。

代码仓库

zyong812/stip
官方
pytorch

基准测试

基准方法指标
human-object-interaction-detection-on-hicoSTIP (ResNet-50)
Time Per Frame (ms): 74
mAP: 32.22
human-object-interaction-detection-on-v-cocoSTIP
AP(S1): 66.0
AP(S2): 70.7
Time Per Frame(ms): 74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于交互提议的结构感知Transformer在人-物体交互检测中的探索 | 论文 | HyperAI超神经